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近年 来 ， 深 度 学 习 可 谓 是 机 器 学 习 方向 的 明星 概念 ， 不 同 的 深度 学 习 模 型 分 别 在 
图 像 处 理 与 自然 语言 处 理 等 任务 中 取得 了 前 所 未 有 的 好 成 绩 。 

在 许多 场合 都 有 这 样 的 需求 “如 何 对 感 兴趣 的 领域 快速 理解 和 使 用 深度 学 习 技 
术 ?” 答 案 涉及 复杂 的 数学 、 编 程 语言 (如 C、C ++ 和 Java)。 但 随 着 R 的 兴起 ， 现 
在 使 用 深度 学 习 技 术 比 以 往 更 容易 。 因 为 R 易学 易 用 ， 不 要 求 很 扎实 的 编程 基础 ， 它 
被 广泛 地 应 用 于 机 器 学 习 实践 和 教学 中 。 即 使 对 及 语言 不 是 很 了 解 的 用 户 也 可 以 通过 
一 些 包 来 搭建 深度 学 习 网 络 。 

全 书 11 章 ， 分 为 原理 篇 (第 1 ~8 章 ) 和 应 用 篇 (第 9~11 章 )。 原 理 篇 按照 深 
度 学 习 的 发 展 过程 ， 主 要 讨论 了 浅 层 神 经 网 络 、 深 度 神 经 网 络 、 卷 积 神经 网 络 、 递 归 
神经 网 络 、 自 编码 网 络 、 受 限 玻 耳 效 曼 机 和 深度 置信 网 。 应 用 篇 讨论 R 环境 部 署 深度 
学 习 环 境 的 一 些 策略 ， 包 括 : MXNetR、H20 和 其 他 深度 学 习 R 包 以 及 一 些 典 型 的 
应 用 


























































































































本 书 可 用 作 本 科 高 年 级 机 器 学 习 课 程 参考 书 或 数据 科学 课程 教材 ， 也 可 供 对 人 工 
智能 、 机 器 学 习 感 兴趣 的 读者 参考 阅读 。 
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深度 学 习 是 机 器 学 习 领 域 一 个 新 的 研究 方向 ， 近 年 来 在 语音 识别 、 计 算 机 视觉 
等 多 类 应 用 中 取得 突破 性 的 进展 ， 其 动机 在 于 建立 模型 模拟 人 类 大 脑 的 神经 连接 结 
进而 给 出 数据 的 解释 。 
深度 学 习 之 所 以 被 称 为 “深度 ”， 是 相对 支持 向 量 机 (Support Vector Machine ， 
SVM) 、 提 升 方法 (Boosting) 、 最 大 炉 方 法 等 “ 浅 层 学 习 ” 方 法 而 言 的 。 浅 层 学 习 依 
靠 人 工 经 验 抽 取样 本 特征 ， 网 络 模型 学 习 后 获得 的 是 没有 层次 结构 的 单 层 特征 ; 而 
深度 学 习 通 过 对 原始 信号 进行 逐 层 特征 变换 ， 将 样本 在 原 空间 的 特征 表示 变换 到 新 
的 特征 空间 ， 自 动 地 学 习 得 到 层次 化 的 特征 表示 ， 从 而 更 有 利于 分 类 或 特征 的 可 
视 化 。 

本 书 的 目的 是 把 强大 的 深度 学 习 技 术 传 递 到 想 实 践 深 度 学 习 的 读者 手中 ， 而 不 
是 让 读者 理解 深度 学 习 的 理论 细节 。 因 此 ， 内 容重 点 是 数据 分 析 和 建 模 ， 注 意 力 完 
全 集中 在 能 有 效 工作 的 深度 学 习 技术 、 理 念 和 策略 上 ， 这 样 可 以 用 最 少 的 时 间 快 速 
消化 和 部 署 深度 学 习 应 用 。 

本 书 具 有 以 下 特点 : 

1) 让 读者 清楚 如 何在 R 中 使 用 深度 学 习 。 书 中 给 出 了 大 量 的 深度 学 习 应 用 案 
例 ， 这 些 例子 可 以 直接 输入 到 R 环境 中 运行 ， 指 导读 者 一 步 一 步 构建 和 部 署 深度 学 
习 模 型 。 

2) 深度 学 习 不 需要 很 深 的 数学 基础 作为 前 提 。 无 论 你 是 谁 ?无 论 你 来 自 哪里 ? 
无 论 你 的 受 教育 背景 如 何 ? 都 有 能 力 使 用 这 本 书 中 论述 的 方法 。 

3) 每 一 章 都 提供 了 进一步 学 习 的 详细 参考 资料 ， 并 且 大 部 分 是 免费 的 。 

图 的 上 半 部 分 给 出 了 本 书 的 学 习 路 线 , 第 1、5、7 章 相对 独立 ， 是 学 习 深 度 神 
经 网 络 的 基础 ， 虚 线 表示 分 类 ， 实 线 表示 支持 ， 核 心 是 第 3、4、8 章 ， 每 一 章 
的 英文 表示 依赖 的 R 包 。 图 的 下 半 部 分 是 深度 学 习 R 包 与 各 章 的 关系 。 

本 书 主 要 参考 了 N. D，Lewis 所 著 的 《Deep Learning Made Easy with R 一 一 A Gen- 
tle Introduction for Data Science》， 在 此 表示 感谢 。 感 谢 研 究 生 谢 融 、 胡 海 涛 、 周 春 
瑜 、 姚 泽 峰 和 沈 佳 杰 在 材料 整理 方面 所 做 的 工作 。 感 谢 胡 彬 、 陈 晓 勇 、 李 跃 华 老师 
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图 深度 学 习 R 包 与 各 章 的 关系 


对 本 书 提 出 的 宝贵 意见 。 
本 书 的 出 版 得 到 南通 大 学 - 南通 智能 信息 技术 联合 研究 中 心 开放 课题 项 目的 资 
深度 学 习 领 域 发 展 迅 狐 ， 对 许多 问题 作者 并 未 做 深入 人 研究， 一 些 有 价值 的 新 内 
容 也 来 不 及 收入 本 书 。 加 上 作者 知识 水 平和 实践 经 验 有 限 ， 书 中 难免 存在 不 足 之 处 ， 
敬 请 读者 批评 指正 。 
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机 器 学 习 是 人 工 智能 的 一 个 分 支 ， 在 很 多 时 候 几 乎 成 为 人 工 智能 的 代名词 。 简 
单 来 说 ， 机 器 学 习 就 是 通过 算法 使 得 机 器 能 从 大 量 历史 数据 中 学 习 规 律 ， 从 而 对 新 
的 样本 做 智能 识别 或 对 未 来 做 预测 。 从 20 世纪 80 年 代 末 期 以 来 ， 机 器 学 习 的 发 展 
大 致 经 历 了 两 次 浪潮 : 浅 层 学 习 ( Shallow Learning) 和 深度 学 习 ( Deep Learning) 。 




















1.1.1 深度 学 习 兴 起 的 渊源 


深度 学 习 起 源 于 对 神经 网 络 的 研究 ，20 世纪 60 年 代 ， 受 神经 科学 对 人 脑 结构 研 
究 的 启发 ,为 了 让 机 器 也 具有 类 似 人 一 样 的 智能 ， 人 工 神经 网 络 被 提出 用 于 模拟 人 
脑 处 理 数据 的 流程 。 最 著名 的 学 习 算 法 称 为 感知 机 。 但 随后 人 们 发 现 ， 两 层 结构 的 
感知 机 模型 不 包含 隐 层 单元 ,输入 是 人 工 预先 选择 好 的 特征 ， 输 出 是 预测 的 分 类 结 
果 ， 因 此 只 能 用 于 学 习 固 定 特征 的 线性 函数 ， 而 无 法 处 理 非 线 性 分 类 问题 。Minsky 
等 指出 了 感知 机 的 这 一 局 限 ， 由 于 当时 其 他 人 工 智 能 研究 学 派 的 抵触 等 原因 ， 使 得 
对 神经 网 络 的 研究 遭受 到 巨大 的 打击 ， 陷 入 低谷 。 直 到 20 世纪 80 年 代 中 期 ， 反 向 
传播 (Back Propagation ，BP) 算法 的 提出 ， 提 供 了 一 条 如 何 学 习 含 有 多 隐 层 结构 的 
神经 网 络 模型 的 途径 ， 让 神经 网 络 研究 得 以 复苏 。 

由 于 增加 了 隐 层 单元 ， 多 层 神经 网 络 比 感 知 机 具有 更 灵活 且 更 丰富 的 表达 力 ， 
可 以 用 于 建立 更 复杂 的 数学 模型 ， 但 同时 也 增加 了 模型 学 习 的 难度 ， 特 别 是 当 包含 
的 隐 层 数量 增加 的 时 候 ， 使 用 BP 算法 训练 网 络 模型 时 ， 常 常会 陷入 局 部 最 小 值 ， 而 
在 计算 每 层 结 点 梯度 时 ， 在 网 络 低层 方向 会 出 现 梯度 衰竭 的 现象 。 因 此 ， 训 练 含 有 
许多 隐 层 的 深度 神经 网 络 一 直 存在 困难 ， 导 致 神经 网 络 模型 的 深度 受到 限制 ， 制 约 
了 其 性 能 。 




































































2006 年 之 前 ， 大 多 数 机 需 学 习 仍 然 在 探索 浅 层 结构 (Shallow - structured) ， 这 
种 结构 包含 了 一 层 典 型 的 非 线性 特征 变换 的 单 层 ， 而 缺乏 自 适应 非 线性 特征 的 多 层 
结构 。 如 隐 马 尔 可 夫 模 型 (HMM) 、 线 性 或 非 线性 动态 系统 、 条 件 随机 域 (CRFs) 、 
最 大 炉 (Max - entropy) 模型 、 支 持 向 量 机 (SVM)、 人 逻辑 回归 、 内 核 回 归 和 具有 单 
层 隐 藏 层 的 多 层 感 知 器 (MLP) 神经 网 络 。 这 些 浅 层 学 习 模 型 的 共性 是 由 仅 有 的 单 
层 组 成 的 简单 架构 负责 转换 原始 输入 信和 号 或 输入 特征 为 特定 问题 特征 空间 时 ， 其 过 
程 不 可 观察 。 以 支持 向 量 机 为 例 ， 它 是 一 种 浅 层 线性 独立 模型 ， 当 使 用 核 技巧 时 ， 
SVM 具有 一 个 特征 转换 层 ， 否 则 特征 转换 层 个 数 为 0。 浅 层 架 构 在 许多 简单 或 受 限 
问题 中 ， 早 已 被 证 明 卓 有 成 效 ， 但 是 由 于 它们 的 有 限 建 模 与 表现 能 力 ， 导 致 在 处 理 
涉及 自然 信号 如 人 的 讲话 、 自 然 的 声音 和 语言 、 自 然 的 图 像 和 视觉 场景 等 更 为 复杂 
的 现实 应 用 时 ， 产 生 了 困难 。 

在 实际 应 用 中 ， 如 对 象 分 类 问题 (对 象 可 以 是 文档 、 图 像 、 音 频 等 ) ， 人 们 不 
得 不 面 对 的 一 个 问题 是 如 何 用 数据 来 表示 这 个 对 象 ， 当 然 这 里 的 数据 并 非 初 始 的 
像素 或 者 文字 ， 也 就 是 这 些 数 据 是 比 初 始 数 据 具 有 更 为 高 层 的 含义 ， 这 里 的 数据 
往往 指 的 是 对 象 的 特征 。 例 如 入 们 常常 将 文档 、 网 页 等 数据 用 词 的 集合 来 表示 ， 
根据 文档 的 词 集 合 表示 到 一 个 词组 短语 的 向 量 空间 (Vector Space Model，VSM ) 
中 ， 然 后 才能 根据 不 同 的 学 习 方 法 设计 出 适用 的 分 类 器 来 对 目标 对 象 进行 分 类 。 
因此 ， 选 取 什么 特征 或 者 用 什么 特征 来 表示 某 一 对 象 对 于 解决 一 个 实际 问题 非常 
得 重要 。 然 而 ， 人 为 地 选取 特征 的 时 间 代 价 是 非常 昂贵 的 。 而 所 谓 的 启发 式 算 法 
得 到 的 结果 往往 不 稳定 ， 结 果 的 好 坏 经 常 是 依靠 经 验 和 运气 。 于 是 ， 人 们 考虑 到 




















































































































利用 自动 学 习 来 完成 特征 抽取 这 一 任务 。 深 度 学 习 的 产生 就 是 缘 于 此 任务 ， 它 又 
被 称 为 无 监督 的 特征 学 习 ， 从 这 个 名 称 就 可 以 知道 这 是 一 个 没有 人 为 参与 的 特征 
选取 方法 。 


深度 结构 学 习 ， 或 者 通常 更 多 人 称 之 为 深度 学 习 ， 从 2006 年 开始 作为 一 个 新 兴 
的 领域 出 现在 机 器 学 习 的 研究 中 。 深 度 学 习 的 概念 是 2006 年 由 Geoffrey Hinton 等 人 
在 《Science》 上 发 表 的 一 篇 文章 Reducing the dimen sionality of data with neural net- 
works 提出 来 的 ， 开 局 了 深度 学 习 在 学 术 界 和 工业 界 的 浪潮 。 这 篇 文章 有 两 个 主要 观 
点 : 中 多 隐 层 的 人 工 神 经 网 络 具 有 优异 的 特征 学 习 能 力 ， 学 习 得 到 的 特征 对 数据 有 
更 本 质 的 刻画 ， 从 而 有 利于 可 视 化 或 分 类 ; @) 深 度 神 经 网 络 在 训练 上 的 难度 ， 可 以 
通过 “ 逐 层 初始 化 ”来 有 效 克 服 ， 在 这 篇 文章 中 ， 逐 层 初始 化 是 通过 无 监督 学 习 实 
现 的 。2006 年 的 另外 3 篇 论文 “改变 了 训练 深度 架构 失败 的 状况 ， 由 Hinton 革命 
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性 地 在 深度 置信 和 网络 (Deep Belief Networks, DBN) 上 的 工作 所 引领 





1.1.2 深度 学 习 总 体 框架 


随 着 计算 机 处 理 器 速度 越 来 越 快 、 存 储 絮 容量 越 来 越 大 以 及 数据 表达 的 形式 多 
样 化 ， 各 类 大 小 事务 都 能 使 用 深度 学 习 进行 实时 数据 分 析 。 

深度 学 习 是 利用 多 层 感知 机 学 习 模 型 来 对 数据 进行 有 监督 或 者 无 监督 学 习 。 
模型 中 的 层 是 由 多 段 非 线 性 数据 变换 构成 的 ， 层 次 越 高， 对 数据 特征 的 表达 就 越 
抽象 。 

图 1. 1 说 明了 深度 学 习 的 金字 塔 结构 。 在 底部 是 数据 学 习 的 两 种 核心 形式 ， 有 
监督 学 习 和 无 监督 学 习 。 核 心 要 素 非 线性 变换 位 于 金字 塔 结构 的 中 心 ， 金 字 塔 上 部 
是 各 种 各 样 的 神经 网 络 。 
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图 1.1 深度 学 习 金 字 塔 





1) 有 监督 学 习 : 训练 数据 包含 了 已 知 结果 ， 根 据 这 些 结果 来 训练 模型 。 

2) 无 监督 学 习 : 训练 数据 不 含 任何 已 知 结果 ， 在 这 种 情况 下 ， 算 法 需要 自身 发 
现 数据 间 的 关系 。 

当 使 用 R 来 实现 深度 学 习 时 ,采用 的 总 体 方法 如 图 1.2 所 示 。 无 论 开发 了 什么 
特定 的 模型 ,最终 还 是 会 回 到 这 个 基本 框架 0 数据 输入 到 模型 中 ， 并 且 被 多 个 























非 线性 层 过 滤 ， 最 后 一 层 由 分 类 器 构成 ， 这 个 分 类 器 决定 了 感 兴趣 的 目标 所 属 的 
类 别 。 

输 目 

人 a rr 简单 人 由 茶 

据 别 











到 1.2 深度 学 习 总 体 框架 





深度 学 习 的 目的 在 于 预测 一 个 响应 变量 〈 分 类 变量 ) 。 这 在 某 种 程度 上 类 似 于 线 
性 回归 做 的 事情 。 在 线性 回归 中 ， 一 个 线性 模型 使 用 一 组 独立 变量 〈 亦 称 属 性 或 者 
特征 ) 来 预测 响应 变量 。 尽 管 如 此 ， 传 统 的 线性 回归 模型 并 不 被 认为 是 深度 的 。 

其 他 流行 的 学 习 方法 ， 如 决策 树 、 随 机 森林 以 及 支持 向 量 机 ， 都 不 是 深度 结构 。 
决策 树 和 随机 森林 使 用 的 都 是 原始 输入 数据 ， 对 这 些 数据 它们 不 做 变换 也 不 产生 新 
的 特征 ; 支持 向 量 是 由 一 个 核 和 一 个 线性 变换 构成 的 模型 。 


























1.1.3 深度 学 习 本 质 


深度 学 习 能 够 以 适当 数目 、 并 行 、 非 线性 步骤 对 非 线性 数据 进行 分 类 或 者 预测 ， 
它 的 威力 正 是 源 于 此 。 从 原始 输入 数据 一 直到 数据 分 类 结果 ， 一 个 深度 学 习 模型 对 
输入 数据 进行 分 层次 的 学 习 ， 每 一 层 从 前 一 层 的 输出 中 提取 特征 。 

深度 学 习 模型 是 多 隐藏 层 的 神经 网 络 。 最 简单 的 深度 神经 网 络 如 图 1. 3 所 示 ， 
它 包 含 了 至 少 两 个 隐藏 层 。 在 这 个 神经 网 络 中 ， 每 一 层 都 把 前 一 层 的 输出 看 成 是 本 
层 的 输入 。 






































类 别 








输入 层 第 1 隐藏 层 第 2 隐藏 层 输出 层 








图 1.3 两 个 隐藏 层 的 前 馈 神经 网 络 
深度 多 层 神经 网 络 包含 了 许多 非 线性 变换 ， 这 些 变换 使 得 深度 多 层 神经 网 络 
能 够 简洁 地 近似 表达 复杂 的 非 线 性 函数 。 深 度 多 层 神 经 网 络 善于 分 辨 出 数据 中 的 
复杂 模式 ， 它 们 已 经 被 用 来 解决 实际 问题 ， 如 计算 机 视觉 、 自 然 语 言 处 理 、 语 音 











1.1.4 深度 学 习 应 用 








深度 学 习 技 术 已 经 商业 化 了 ， 应 用 于 健康 护理 产业 和 医学 图 像 处 理 ， 自 然 语 言 
处 理 已 经 被 用 于 广告 业 来 改善 点 击 率 。 微 软 、 谷 歌 、IBM、 雅 虎 、 推 特 、 百 度 、 
Paypal 以 及 Facebook 都 正在 利用 深度 学 习 来 理解 用 户 的 行为 ， 目 的 是 能 够 有 针对 性 
地 推荐 服务 与 产品 。 深 度 学 习 技 术 处 处 存在 ， 很 难 想 出 在 商业 活动 的 哪个 领域 不 需 
要 利用 深度 学 习 ， 以 下 列 出 深度 学 习 商业 化 的 一 些 领域 ; 

1) 过 程 建 模 与 控制 。 

2) 健康 诊断 。 

3) 投资 证 券 管理 。 

4) 军事 目标 识别 。 

5) 核磁 共振 图 像 与 X 射线 图 像 分 析 。 

6) 银行 以 及 其 他 财务 机 构 对 个 人 的 信用 评价 。 

7) 市 场 推广 。 

8) 语音 识别 。 

9) 股票 市 场 预测 。 

10) 文本 搜索 。 

11) 财务 欺诈 检测 。 

12) 光学 字符 识别 。 























1.2 前 向 反馈 神经 网 络 FNN 


1.2.1 多 层 感 知 器 














前 向 反馈 神经 网 络 (Feed -forward Neural Networks，FNN) 的 引入 显著 改善 





了 预测 的 准确 率 ， 并 且 随 着 FNN 训练 方法 的 逐渐 完善 使 得 商业 和 科学 研究 持续 
受益 。 








对 模拟 人 脑 的 生理 结构 以 及 功能 的 需求 催生 了 FNN。 尽 管 这 样 的 需求 从 来 没有 
有 具体 化 ， 但 人 们 很 快 发 现 FNN 在 分 类 和 预测 任务 中 表现 得 相当 好 。 
FNN 能 被 用 来 解决 许多 分 类 问题 。 这 是 因为 从 理论 上 讲 ， 它 能 逼近 任何 可 以 计 
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算 的 函数 。 在 实践 中 ， 有 些 问题 对 错误 比较 宽容 ， 有 些 问 题 不 能 简单 地 应 用 严格 的 
规则 ， 神 经 网 络 在 应 对 这 些 问题 时 特别 有 效 。 

一 个 FNN 是 由 一 些 相互 连接 的 神经 元 构建 而 成 。 这 些 神经 元 通常 被 安置 到 一 些 
层 中 。 一 个 典型 的 前 馈 神 经 网 络 至 少 有 一 个 输入 层 、 一 个 隐藏 层 和 一 个 输出 层 。 输 
入 层 的 神经 元 数 对 应 于 输入 神经 网 络 的 特征 或 者 属性 的 数目 。 这 类 似 于 在 线性 回归 
模型 中 使 用 的 自 变 量 。 输 出 神经 元 的 数目 对 应 于 分 类 数 或 者 预测 的 类 别 数 。 隐 藏 层 
结 点 大 致 上 是 用 来 执行 对 原始 输入 特征 的 非 线性 变换 。 

最 简单 形式 的 前 馈 神 经 网 络 通过 网 络 来 传播 特征 信息 ， 用 来 做 出 预测 。 前 馈 神 
经 网 络 的 输出 要 么 是 连续 的 (回归 )， 要 么 是 离散 的 (分 类 )。 图 1.4 说 明了 一 种 典 
型 的 前 僻 神经 网 络 拓 扑 结 构 。 它 有 7 个 输入 神经 元 、 一 个 具有 5 个 神经 元 的 隐藏 层 ， 
以 及 3 个 输出 神经 元 。 信 息 从 输入 特征 前 馈 到 隐藏 层 ， 并 且 接 着 再 前 馈 到 做 出 分 类 
或 者 回归 预测 的 输出 层 。 它 之 所 以 叫 前 馈 神 经 网 络 是 因为 信息 是 向 前 流动 通过 整个 
网 络 的 。 
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图 1.4 一 种 基本 的 FNN 


1.2.2 神经 元 的 作用 








图 1.5 说 明了 一 个 生物 神经 元 是 如 何 工 作 的 。 生 物 神经 元 通过 电信 号 在 相互 之 
间 传 递 信号 或 者 消息 。 相 邻 的 神经 元 通过 它们 的 树 突 接 收 这 些 信号 。 信 息 从 树 突 流 
向 称 为 胞 体 的 主 细胞 体 ， 再 通过 轴 突 到 轴 突 末端 。 实 质 上 ， 生 物 神经 元 就 是 彼此 之 
间 相 互 传递 与 各 种 生物 功能 相关 信息 的 计算 机 器 。 



































( 来 自 其 他 神经 元 轴 突 神经 末梢 





神经 末梢 


图 1.5 生物 神经 元 








神经 元 是 人 工 神经 网 络 的 核心 ， 它 是 最 基本 的 处 理 要 素 。 输 入 层 神经 元 接收 进 
入 网 络 的 信息 ， 这 些 信息 通过 一 个 数学 函数 来 处 理 ， 接 着 被 传递 到 隐藏 层 神经 元 。 
这 种 信息 经 过 隐藏 层 神经 元 处 理 传递 到 输出 层 神经 元 。 信 息 通 过 一 个 激活 函数 进行 
处 理 ， 这 是 神经 元 工作 的 关键 。 激 活 函 数 模拟 了 大 脑 神经 元 ， 大 脑 神经 元 是 否 工作 
取决 于 输入 信号 的 强度 。 

第 一 个 感知 器 模型 是 1958 年 在 康 奈 尔 航空 实验 室 中 开发 的 。 它 由 无 反馈 的 三 层 
所 构成 : 

1) 传递 输入 数据 到 第 二 层 (视网膜 ) 。 

2) 把 加 权 输 入 和 阅 值 阶梯 函数 组 合 起 来 (神经 元 连接 )。 

3) 输出 层 。 

处 理 的 结果 接着 被 加 权 并 且 被 传递 到 下 一 层 的 神经 元 中 。 实 质 上 ， 神 经 元 
通过 加 权 和 相互 激活 ， 根 据 处 理 信 息 的 权重 来 确定 两 个 神经 元 之 间 的 联系 强度 
大 小 。 

每 一 个 神经 元 都 包含 一 个 激活 函数 和 一 个 阔 值 。 阔 值 是 输入 要 激活 神经 元 所 必 
须 的 最 小 值 。 因 此 ， 神 经 元 的 任务 就 是 ， 在 传递 输出 到 下 一 层 之 前 ， 求 输入 信和 号 的 
加 权 和 ， 以 及 执行 一 个 激活 函数 。 

综 上 ， 输 入 层 对 输入 数据 进行 求 和 ; 中 间 层 神经 元 对 由 输入 层 神经 元 传输 而 
来 的 加 权 信 息 进 行 求 和 ; 并 且 输 出 层 对 由 中 间 层 神经 元 传输 而 来 的 加 权 信 息 进 行 
求 和 。 

图 1.6 说 明了 神经 元 是 如 何 工 作 的 。 给 定 一 个 输入 样本 的 特征 |x,…,x,| 和 
一 个 权重 WW,; 接着 计算 神经 元 输入 的 加 权 和 ， 公 式 如 下 : 












































y=0(ne) =0 (> (CW, + 6) ) 


J) 输 出 量 






0 激活 函数 


2 抑制 量 


图 1.6 神经 元 的 替代 表示 


参数 包 被 称 为 抑制 量 〈 偏 置 ) ， 它 类 似 于 线性 回归 模型 中 的 截 距 。 它 使 得 网 络 能 
够 “上 移 ” 或 者 “下 移 ” 激 活 困 数 。 这 种 弹性 对 于 成 功 的 机 器 学 习 是 重要 的 。 


1.2.3 激活 函数 


隐藏 层 结 点 需要 激活 琐 数 实现 非 线性 变换 。 一 个 神经 元 先 执行 激活 函数 ， 接 着 
消 数 的 输出 传输 到 网 络 的 下 一 层 神经 元 。 设 计 激活 函数 是 为 了 限制 神 2 ee 
输出 值 通常 被 限定 在 0~1 或 者 -1 ~1 之 间 。 在 大 部 分 情况 下 ， 一 个 网 络 中 的 每 
神经 元 的 激活 函数 痢 是 一 样 的 。 几 乎 所 有 的 非 线 性 函数 都 可 以 充当 激活 函数 ， 尽 管 
如 此 ， 对 前 向 传播 算法 而 言 ， 激 活 函 数 必须 是 可 微 的 ， 如 果 是 有 界 函 数 ， 将 会 更 有 
帮助 

双 曲 本 数 是 一 个 常规 的 选择 ， 这 个 函数 是 一 个 形 如 “S” 的 可 微 激活 函数 。 双 曲 
函数 如 图 1.7 所 示 ， 这 里 的 c 是 一 个 值 为 0 ~1 的 常量 ， 双 曲 函 数 很 受 欢 迎 ， 部 分 原 
因 是 求 导 容 易 ， 减 少 了 训练 时 的 代价 。 双 曲 函数 的 输出 值 也 是 在 0 ~1 之 间 ， 其 表达 
式 如 下 : 





1 
1 +exp( — cx) 


ee 
激活 函数 的 数量 很 多 ， 如 
1) 线性 函数 : 
Oo(x) =ax+b 
2) 双 曲 正切 函数 : 双 曲 正切 函数 的 输出 范围 是 -1 ~1。 这 个 函数 与 双 曲 函数 有 
aa 
有 效 。 它 的 函数 表达 式 如 下 : 








o(x) =tanh(cx) 


(1+e™) 
人 


1 






0.8 














图 1.7 双 曲 函数 








3) Softmax 国 数 (Logistic - sigmoid、Tanh - sigmoid ) : 神经 网 络 使 用 一 个 Soft- 
max 函数 来 得 到 输出 是 很 常见 的 。 使 用 这 个 函数 可 以 得 到 大 个 类 别 上 的 概率 分 布 。 其 
函数 表达 式 如 下 : 


Oo(X) = 一 OO—— 
> ,exp( 凶 ) 
式 中 , 了 是 温度 (通常 设 定 为 1)， 它 通常 和 一 个 具有 个 类 别 的 响应 变量 一 起 使 用 。 
基本 上 ， 它 可 以 被 看 成 一 系列 的 二 值 结 点 ， 这 些 结 点 相互 约束 以 便 使 个 状态 中 的 
某 一 个 值 为 1， 同 时 其 余 的 状态 值 为 0。 
4) 矫正 线性 函数 (ReLU) : 它 的 表达 式 如 下 : 
o(x) =max(0,x) 

这 个 激活 函数 在 深度 学 习 模型 中 很 常用 ， 因 为 对 于 语音 识别 和 计算 机 视觉 任务 
而 言 ， 它 显著 改善 了 分 类 速度 。 只 有 在 神经 元 的 输出 值 是 正 数 时 ， 它 才 人 允许 激活 神 
经 元 。 这 个 激活 函数 还 能 够 使 其 所 在 网 络 的 计算 速度 快 于 采用 双 曲 激活 函数 或 者 双 
曲 正 切 激活 函数 的 网 络 ， 这 是 因为 它 只 是 一 个 简单 的 求 取 最 大 值 的 操作 。 矫 正 激活 
函数 使 神经 网 络 稀疏 ， 因 为 当 随 机 初始 化 时 ， 整 个 网 络 中 的 神经 元 大 约 有 一 半 被 设 
置 成 0。 

还 有 一 种 平滑 估计 ， 表 达 式 如 下 : 

o(x) =log(1 +exp(x)) 

















1.2.4 学 习 算法 


学 习 算法 有 很 多 种 ， 一 般 而 言 ， 它 们 都 是 通过 迁 代 修改 网 络 权重 ， 直 到 网 络 答 
出 与 期 望 输出 的 误差 低 于 一 个 预先 设 定 的 阔 值 。 











反 向 传播 算法 是 最 流行 的 学 习 算 法 ， 并 且 现 在 还 在 广泛 使 用 。 它 将 梯度 下 降 法 
作为 核心 的 学 习 机 制 。 从 随机 权重 开始 ， 反 辕 传 播 算法 计算 权重 值 是 根据 网 络 输出 
与 期 望 输出 之 间 的 误差 逐渐 调整 权重 值 。 

这 个 算法 将 误差 从 输出 端 传播 到 输入 端 ， 并 且 使 用 梯度 下 降 逐 渐 微 调 网 络 权 重 
使 误差 值 最 小 化 。 

学 习 步 又 如 下 : 

1) 定义 变量 与 参数 : x (输入 向 量 ) 、w ( 权 值 向 量 ) 、” ( 偏 置 )、y (实际 输 
出 )、7 (期 户 输 出 ) 和 a 〈 学 习 率 参数 ) 。 

2) 初始 化 : mn=0，w=0。 

神经 网 络 通过 随机 设 定 权重 值 和 偏 置 进行 初始 化 。 首 要 规则 是 将 随机 值 设 定 在 
一 个 范围 内 ( -2n ~2n)， 这 里 是 输入 特征 的 个 数 。 

3) 输入 训练 样本 : 对 每 个 训练 样本 指定 其 期 望 输出 : A 类 记 为 1; B 类 记 为 -1。 

4) 前 馈 : 在 网 络 中 ， 信 息 从 输入 层 到 隐藏 层 再 到 输出 层 的 向 前 传递 ， 并 且 传 递 
过 程 要 借助 激活 函数 和 加 权 ， 计 算 实 际 输出 y =o (wx +b)。 

5) 更 新 权 值 向 量 : 利用 梯度 调整 权重 ,以 达到 减 小 误差 的 目的 。 

wn+1) =w(n) taly -y(n) jx(n) 

每 个 神经 元 的 权重 和 偏 置 都 是 按照 一 定 规则 调整 的 ， 这 个 规则 依赖 于 激活 函数 
的 导数 、 网 络 输出 与 实际 目标 结果 之 间 的 差别 以 及 神经 元 的 输出 。 

图 1.8 粗略 地 说 明了 权重 调整 的 基本 思想 。 如 果 偏 导数 是 负 的 ， 要 增加 权重 
( 见 图 1.8a); 如 果 偏 导数 是 正 的 ， 要 减少 权重 ( 见 图 1. 8b)。 这 种 学 习 流 程 的 每 一 
个 循环 ， 称 为 迭代 (Epoch)。 

































































下 一 步 增加 权重 下 一 步 减 少 权重 
误 一 -一 误 一 一 
差 
| 
] 1 
| yp > 
O Wi 权重 O 而 权重 
a) b) 





图 1.8 反 向 传播 算法 的 基本 思想 
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6) 误差 评估 : 将 网 络 和 输出 与 已 知 输 出 进行 比较 ， 以 此 评 佑 网 络 权 重 。 如 果 误 差 
低 于 预先 设 定 的 靖 值 ， 网 络 训练 完毕 ， 并 且 算 法 终止 ， 否 则 返回 步 又 3) 。 

早期 使 用 梯度 下 降 的 反 向 传播 算法 经 常 收敛 得 很 慢 或 者 根本 就 不 收敛 。 找 到 全 
局 最 优 解 ， 避 免 局 部 最 小 值 ， 这 是 个 挑战 ， 因 为 ， 一 个 典型 的 神经 网 络 可 能 有 成 千 
上 万 的 权重 ， 用 这 些 权重 的 组 合 来 求解 。 这 个 解 经 常 是 高 度 非 线性 的 ， 这 使 得 优化 
过 程 变 得 复杂 。 为 了 避免 网 络 陷 入 局 部 最 小 ， 通 常 要 指定 一 个 动量 参数 。 























1.3 R 语言 基础 


1.3.1 人 门 





(1) 什么 是 及 语言 

R 语言 是 一 个 开源 的 数据 分 析 环 境 ， 起 初 是 由 数位 统计 学 家 建立 起 来 的 ， 以 更 
好 地 进行 统计 计算 和 绘图 。 由 于 R 语言 可 以 通过 安装 扩展 包 (Packages) 而 得 到 增 
强 ， 所 以 其 功能 已 经 远 远 不 限于 统计 分 析 。 

R 语言 名 称 则 是 来 源 于 两 位 主要 作者 的 首 字母 ( Robert Gentleman 和 Ross 
Ihaka) 。 

(2) 为 什么 要 学 习 R 语言 

1) 免费 开源 。 

现在 很 多 学 术 期 刊 都 对 分 析 软 件 有 版 权 要 求 ， 而 免费 的 分 析 工 具 可 以 使 你 在 这 
方面 不 会 有 什么 担心 。 男 外 ， 如 果 学 术 界 出 现 一 种 新 的 数据 分 析 方 法 ， 那 么 要 过 很 
长 一 段 时 间 才 会 出 现在 商业 软件 中 。 但 开源 软件 的 好 处 就 在 于 ， 很 快 就 会 有 人 将 这 
种 方法 编写 成 扩展 包 ， 或 者 你 自己 就 可 以 做 这 份 工作 。 

2) 小 巧 而 精 悍 。 

R 语言 的 安装 包 很 小 ,大 约 40 MB ， 相 比 其 他 几 个 软件 相 比 ， 它 算是 非常 小 巧 精 
悍 的 。 目 前 R 语言 非常 受到 专业 人 士 欢 迎 ， 根 据 对 数据 挖掘 大 赛 胜 出 者 的 调查 可 以 
发 现 ， 他 们 用 的 工具 基本 上 都 是 R 语 言 。 此 外 ， 从 最 近 几 次 R 语言 大 会 上 可 以 了 解 
到 ， 咨 询 业 、 金 融 业 、 医 药 业 都 在 大 量 的 使 用 R 语言 ， 包 括 Google 和 Facebook 的 大 
公司 都 在 用 它 。 因 此 ， 学 习 民 语言 对 职业 发 展 一 定 是 有 帮助 的 。 

3) 丰富 的 R 包 。 

R 语言 应 该 是 所 有 数据 分 析 软 件 里 ,方法 ( 函数) 最 多 的 语言 。 截 至 2016 年 6 
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月 ，R 语言 综合 典藏 网 (Comprehensive R Archive Network ，CRAN) 上 共 提 供 了 3024 
个 包 ， 涵 盖 了 贝 叶 斯 推断 、 分 类 方法 、 计 量 经 济 学 、 生 态 学 、 金 融 学 、 遗 传 学 、 机 
器 学 习 、 稳 健 统 计 、 空 间 统计 、 生 存 分 析 和 时 间 序 列 等 多 个 方面 。 

4) 广泛 的 数据 接口 。 

R 语言 可 以 良好 地 接 和 人 CSV (Comma Separated Values) 数据 ， 或 者 通过 其 他 包 
来 扩展 ， 直 接 读 入 SPSS、SAS、Minitab 、Stata 和 Excel 等 文件 ， 或 者 直接 读 取 
MySQL 、SQL Server 、DB2 和 Oracle 等 数据 库 。 

5) 强大 的 绘图 功能 。 

R 语言 提供 了 “高 水 平 ”“ 低 水 平 ” 和 “交互 式 ” 三 种 绘图 命令 ， 而 且 很 容易 
生成 ps、pdf、png 、jpeg、bmp 、gif、SVG， 甚 至 以 LATEX 或 HTML 形式 输出 。 

(3) 认识 R 语言 环境 

从 图 1.9 可 以 看 出 ，R 语言 环境 总 共有 四 个 工作 区 域 , 左上 是 用 来 写 代 码 的 ， 
左下 也 可 以 写 代码 ,同时 也 是 数据 输出 的 地 方 。R 语言 是 动态 语言 ， 写 代码 的 形式 
有 两 种 ， 一 种 是 像 写 作文 一 样 写 很 多 ,也 就 是 像 C 语言 一 样 的 代码 ; 另 一 种 则 是 写 
一 句 就 编译 解释 一 句 。 左 下 就 是 写 一 句 编 译 解释 一 句 的 工作 区 域 (命令 控制 台 )。 厂 
上 是 工作 空间 (Workspace) 和 历史 记录 。 右 下 有 四 个 主要 的 功能 ，Files 是 查看 当前 
Workspace 下 的 文件 ，Plots 是 展示 运算 结果 输出 的 图 形 ，Packages 能 查看 系统 已 安装 
的 软件 包 ， 并 且 通 过 勾 选 载 入 内存 ，Help 则 是 查看 帮助 文档 。 




































































[Fle Edit Code View Plots Session Build Debug Tools Help 莱 单 芭 | 
9 请- | 到 project (None) > 
testlr 昌 ] 案例 RR 局 ] 关联 规则 .R 全] 交互 展示 案例 .R 虽 ] 决 荣 树 'Rx 六 吓 口 | Environment History = 口 
口 soureonsave | @ Vi-| 屋 CHR Ew soure -| 革 日 | 区 ImportDatasetr | 过 | @ List™ 
3 + Oe a ^| A GlobalEnvironment- 
#pa RColorBrewer ,ordcloud,LP, tm 行 
ee Cr Ten) 执行 脚本 cement eigen List of Z 和 
4 |library(wordcloud) 了 脚本 编辑 区 cement.k 1.59261961928522 
和 (library(NLP) TS change num [1:96] NA NA NA NA NA NA NA NA .. 
6 |library(tm) © china Large SpatialpolygonsDataFrame (925.. 
oataCcrude) h 3491888400 
8 |crude<-tm_map(crude,removePunctuation); hens 
9 lcrude<-tm_map(crude,function(x)removeWords(x,stopwords()) cl num [1:115] 105.3 102.7 100.7 96.4 .. 
10 |wordcloud(crude,color=sample(rainbow(20))) © control List of 4 
呈 下 R 
12 2. Stock 天 让 jcrude List of 20 v 
13 
rp A 过 Files Plots Packages Help Viewer 结果 导出 ea 
11:1 | (Top Level) = R Script + 一 
zoom | Eno © Publish 
Console ， Markers eT 
ETTOP—TF TECtEar test Tr am OJect Ca test Trame Ho Ton A 3 december 
lans 去 years 
library(RColorBrewer) 证 3 Ey Says nymex 
1ibrary (wordcloud) 3 On NEW bbl week 
1ibraryCNLP) R 命 令 控制 台 = wone kuwait accord 
TibraryCrm) growth ae Lalimports emirates 
ability they demand study 
贱 入 程 辑 包 : “tm'” exports 
|rhe following object is masked from ‘package:arules’: 
inspect 
data(crude) 
crude<-tm_map(Ccrude,removepunctuation); 
crude<-tm_ map(crude,function(x)removeWords(x,stopwords())) 
wordcloud(crude, color=sample(rainbow(20))) 
IThere were 50 or more warnings (use warnings() to see the first 
50) 
~ 

















1.9 Rstudio 界面 
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1.3.2 基本 语法 
1) 赋值 : <- 也 可 用 =, 甚至 -> 代替 。 
c<-a+b,c=a+b,a+b->e 等 价 
2) 注释 : #ABC， 无 多 行 注释 。 











3) 变量 : 变量 无 须 定义 ， 但 区 分 大 小 写 ， 注 意 China 和 china 的 不 同 。 
4) 获取 帮助 ， 具 体 函 数 见 表 1. 1。 
表 1.1 获取 帮助 
函数 功 能 
help. start( ) 打开 帮助 文档 首页 
help( "foo" ) 或 ? foo 查看 函数 foo 的 帮助 (引号 可 以 省 略 ) 








help. search( "foo" ) 或 ?? foo 


以 foo 为 关键 


词 搜索 本 地 帮助 文档 





example( "foo" ) 





函数 foo 的 使 








用 示例 (引号 可 以 省 略 ) 








apropos( " foo" 


,mode = "function" ) 列 出 名 





称 中 含有 foo 的 所 有 可 用 函数 





data( ) 


列 出 当前 已 加 载 包 中 所 含 的 所 有 可 用 示例 数据 集 








vignette( ) 

















列 出 当前 已 安装 包 中 所 有 可 用 的 vignette 文档 









































6) 包 : 包 是 函数 、 数 据 、 


GD libpath( ) 














# 显 示 包 所 在 位 置 


预 编译 代码 以 一 种 定义 完善 的 格式 组 成 的 集合 


vignette( " foo" ) 为 主题 foo 显示 指定 的 vignette 文档 
5) 工作 空间 : 工作 空间 是 R 语言 用 来 读 取 文件 和 保存 结果 的 默认 目录 ( 见 表 1.2)。 
表 1.2 用 于 管理 R 语言 工作 空间 的 函数 
到 数 功 能 
getwd( ) 显示 当前 的 工作 目录 
setwd( " mydirectory" ) 修改 当前 的 工作 目录 为 mydirectory 
ls() 列 出 当前 工作 空间 中 的 对 象 
rm( objectlist ) 移 除 (删除 ) 一 个 或 多 个 对 象 
options( ) 显示 或 设置 当前 选项 
q() 退出 R， 将 会 询问 你 是 否 保存 工作 空间 
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©® library( ) # 显 示 当 前 工作 空间 有 哪些 包 

@@) install. packages(" 包 名" ) # 安 装 包 

(@ library(" 包 名 " ) # 加 载 包 到 内 存 

@) help( package =" 包 名 " ) # 输 出 包 的 简短 描述 以 及 包 中 函数 和 数据 集 名 称 的 列表 








7) 内 存 管理 : 








gc(rm(list=1s())) # 清 除 内 存 所 有 变量 
memory. limit( 1000000 ) # 设 置 内 存 上 限 
1.3.3 数据 
(1) 数据 集 


不 同 的 行业 对 于 数据 集 的 行 和 列 叫 法 不 同 。 统 计 学 家 称 它 们 为 观测 ( Observa- 
tion) 和 变量 (Variable) ， 数 据 库 分 析 师 则 称 其 为 记录 (Record) 和 字段 (Field ) ， 
数据 挖掘 /机 器 学 习 学 科 的 研究 者 则 把 它们 叫 作 示例 (Example) 和 属性 (Attribute ) 。 
在 本 书 中 通 篇 使 用 术语 观测 和 变量 。 

从 表 1.3 可 以 清楚 地 看 到 此 数据 集 的 结构 (本 例 中 是 一 个 数据 框 ) 以 及 其 中 包 
含 的 内 容 和 数据 类 型 。 其 中 ，PatientID 是 实例 标识 符 ，AdmDate 是 日 期 型 变量 ，Age 
是 


整 型 变量 ，Diabetes 是 名 义 型 变量 ，Status 是 有 序 型 变量 。 








表 1.3 病例 数据 

















病人 编号 入 院 时 间 年 龄 糖尿 病 类 型 病情 
(PatientID ) (AdmDate ) (Age) (Diabetes ) (Status ) 
1 10/15/2009 25 Typel Poor 
2 11/01/2009 34 Type2 Improved 
3 10/21/2009 28 Typel Excellent 
4 10/28/2009 32 Typel Poor 

















R 语言 提供 了 许多 数据 对 象 ， 包 括 标量 、 向 量 、 数 组 、 数 据 框 和 列表 。 多 样 化 
的 数据 对 象 赋予 了 R 语言 极其 灵活 的 数据 处 理 能 

R 语言 可 以 处 理 的 数据 类 型 (模式) 包括 数值 型 、 字 符 型 、 逻 辑 型 (TRUE/ 
FALSE) 、 复 数 型 (虚数) 和 原生 型 ( 字 节 ) 。 在 表 1.3 中 ，PatientID、AdmDate 和 
Age 为 数值 型 变量 ， 而 Diabetes 和 Status 为 字符 型 变量 。 另 外 ， 需 要 分 别 告诉 R，Pa- 
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tientID 是 实例 标识 符 ，AdmDate 是 日 期 数据 ，Diabetes 和 Status 分 别 是 名 义 型 和 有 序 
型 变量 。R 语言 将 实例 标识 符 称 为 行 名 (Rownames) ， 将 类 别 (包括 名 义 型 和 有 序 


二 之 里 o 














型 ) 变量 称 为 因子 (Factors)， 或 称 为 响应 变量 、 决 策 变 量 , 或 类 别 变量 。 


(2) 数据 对 象 
R 语言 提供 了 图 1. 10 所 示 的 数据 对 象 。 


= 
a) | 
b) 


向 量 
数组 
数据 框 
列表 





数据 框 
各 列 的 模式 ‘modes) 可 以 不 同 
gd) e) 


图 1.10 R 语言 中 的 数据 对 象 
a) 向 量 b) 矩阵 c) 数组 d) 数据 框 e) 数据 框 








1) 向 量 。 
向 量 是 用 于 存储 数值 型 、 字 符 型 或 逻辑 型 数据 的 一 维 数 组 。 函 数 c( ) 可 用 来 创 
建 向 量 。 如 : 
a<-c(1,2,3,4) 
b<-e("US" ,"CHINA" ,"ENGCLISH'" ) 


c<-ce(TRUE ,TRUE ,FALSE) 





这 里 ，a 是 数值 型 向 量 ; b 是 字符 型 向 量 ; 而 。 是 逻辑 型 向 量 。 

说 明 1: 单个 向 量 中 的 数据 必须 拥有 相同 的 类 型 或 模式 (数值 型 、 字 符 型 或 逻辑 
型 )。 同 一 向 量 中 无 法 混杂 不 同 模 式 的 数据 。 

说 明 2: 标量 是 只 含 一 个 元 素 的 向 量 , 例如 f <- 3、g <- " US"” 和 h <- TRUE。 
它们 用 于 保存 常量 。 

通过 在 方 括号 中 给 定 元 素 所 处 位 置 的 数值 ， 可 以 访问 向 量 中 的 元 素 。 例 如 ， 
a[c(2, 4)] 用 于 访问 向 量 a 中 的 第 二 个 和 第 四 个 元 素 。 更 多 示例 如 下 : 

















a[2:4] # 访 问 第 2 ,3 ,4 个 元 素 
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辑 














a[3] # 访 问 第 3 个 元 素 
2) 矩阵 。 
和 矩阵 是 一 个 二 维 数组 ， 

型 ) 。 可 通过 函数 matrix 创建 矩阵 。 


只 是 每 个 元 素 都 拥有 相同 的 类 型 (数值 型 、 字 符 型 或 多 
一 般 使 用 格式 如 下 : 


myymatrix<-matrix(vector,nrow =Dumnpber of rows,ncol =Pumber of _ columns, 


其 中 vector 包含 了 和 矩阵 的 元 素 ， 


包含 了 可 选 的、 以 


充 (byrow =TRUE) i 
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方法 1: 


方法 2: 


y <— matrix(1:20,nrow =5 ,ncol 








字符 型 向 量 表示 的 行 名 和 列 名 。 
还 是 按 列 填 充 (byrow =FALSE ) ， 
【 例 1.1】 定 义 $x4 和 矩阵 的 两 种 方式 。 





byrow= logical value,dimnames = ist ( 


Char_vector_ rownames,char_vector_colnames)) 


nrow 和 ncol 用 以 指定 行 和 列 的 维 数 ，dimnames 


[,1] [2] |,3] 


cells <-c(1:20) 


rnames < 一 c(" RI1 人 了 R22" ey R3" 2 R4" ," RS" ) 
cnames <—c("Cl","C2","C3","C4") 


=4) 


选项 byrow 则 表明 和 矩阵 应 当 按 行 填 
默认 情况 下 按 列 填充 。 





y <— matrix( cells, nrow =2,ncol = 2,byrow =TRUE, list( mames,cnames) ) 


y 


R3 
R4 


Cl C2 


1 


6 
多 
8 
9 
10 


C3 C4 


11 
12 
13 
14 


15 20 


可 以 使 用 下 标 和 方 括 号 来 选择 矩阵 中 的 行 、 列 或 元 素 。 

y[i,] 返 回 矩 阵 y 中 的 第 i 行 ; 

y[ ,jj 返回 矩阵 y 第 j 列 ; 

y[i,j] 返 回 矩 阵 y 第 i 行 第 j 列 元 素 。 

选择 多 行 或 多 列 时 ， 下 标 i 和 j 可 为 数值 型 向 量 , 如 y[ c(1,3),c(2:4)]。 

注意 : R 语言 中 的 下 标 不 是 从 0 开始 ， 而 是 从 1 开始 。 

3) 数组 。 

数组 ( Array) 与 矩阵 类 似 ， 但 是 维度 可 以 大 于 2。 数 组 可 通过 array 函数 创建 ， 
形式 如 下 : 




















myarray < — array( vector, dimentins, dimnames) 

其 中 vector 包含 了 数组 中 的 数据 ，dimensions 是 一 个 数值 型 向 量 ， 给 出 了 各 个 维 
度 下 标的 最 大 值 ， 而 dimnames 是 可 选 的 、 各 维度 名 称 标 签 的 列表 。 
如 下 代码 给 出 了 一 个 创建 三 维 (2 x3 x4) 数值 型 数组 的 示例 : 





z <—array(1:24,c(2,3,4)) 

数组 是 矩阵 的 一 个 自然 推广 。 它 们 在 编写 新 的 统计 方法 时 可 能 很 有 用 。 像 矩阵 
一 样 ， 数 组 中 的 数据 也 只 能 是 同类 型 。 

从 数组 中 选取 元 素 的 方式 与 矩阵 相同 。 例 如 ， 元 素 z[1,2,3] 为 15。 

4) 数据 框 。 

由 于 不 同 的 列 可 以 包含 不 同类 型 (数值 型 、 字 符 型 等 ) 的 数据 ， 数 据 框 的 概念 
较 矩 阵 来 说 更 为 一 般 。 数 据 框 是 在 R 语言 中 最 常 处 理 的 数据 对 象 。 

表 1. 3 所 示 的 病例 数据 集 包 含 了 数值 型 和 字符 型 数据 。 由 于 数据 有 多 种 类 型 ， 
无 法 将 此 数据 集 放 入 一 个 矩阵 。 在 这 种 情况 下 ， 使 用 数据 框 是 最 佳 选择 。 

数据 框 可 通过 函数 data. frame( ) 创建 : 











x <— data. frame( coll , col2, ，col3 ,…) 
其 中 的 列 向 量 coll , col2, col3 ,… 可 为 任何 类 型 (如 字符 型 、 数 值 型 或 逻辑 型 ) 。 
数据 框 的 引用 与 矩阵 一 样 ， 例 如 ，x[1:3,] ,xz[2,c(2,4)] ， 除 此 之 外 ， 增 加 通过 变 
量 引用 数据 框 元 素 的 方法 ， 如 把 表 1. 3 的 数据 框 定义 为 x， 则 x$age 等 价 于 x[ ,3]。 
5) 因子 。 
变量 可 归结 为 名 义 型 、 有 序 型 或 连续 型 变量 。 名 义 型 变量 是 指 没有 顺序 之 分 的 


类 别 变量 。 例 如 ， 糖 尿 病 类 型 Diabetes( Typel ,Type2 ) 是 名 义 型 变量 的 一 例 。 即 使 在 
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数据 中 Typel 编码 为 1， 而 Type2 编码 为 2， 这 也 并 不 意味 着 二 者 是 有 序 的 。 有 序 型 
变量 表示 的 是 一 种 顺序 关系 ， 而 非 数 量 关 系 。 例 如 ， 病 情 Status( poor，improved ，ex- 
cellent) 是 顺序 型 变量 的 典型 示例 。 我 们 知道 ， 病 情 为 Poor ( 较 差 ) 病人 的 状态 不 
如 Improved (病情 好 转 ) 的 病人 ， 但 并 不 知道 相差 多 少 。 连 续 型 变量 可 以 呈现 为 某 
个 范围 内 的 任意 值 ， 并 同时 表示 了 顺序 和 数量 。 年 龄 Age 就 是 一 个 连续 型 变量 ， 它 
能 够 表示 像 14. 5 或 22. 8 这 样 的 值 以 及 其 取 值 范围 内 的 其 他 任意 值 。 

类 别 变量 (名 义 型 变量 、 响 应 变量 ) 和 有 序 类 别 (有 序 型 ) 变量 在 R 语言 中 称 
为 因子 (Factor) 。 因 子 在 R 语言 中 非常 重要 ， 因 为 它 决 定 了 数据 的 分 析 方 式 以 及 如 
何 进行 视觉 呈现 。 

函数 factor( ) 以 一 个 整数 向 量 的 形式 存储 类 别 值 ， 整 数 的 取 值 范围 是 [1… ] 
(其 中 撕 是 变量 中 唯一 值 的 个 数 ) ， 同 时 一 个 由 字符 串 〈 原 始 值 ) 组 成 的 内 部 向 量 将 
映射 到 这 些 整数 上 。 

举例 来 说 ， 假 设 有 向 量 ; 






































diabetes <—c("typel" ,"type2" ，"typel" ，"typel" ) 

语句 diabetes <- factor( diabetes ) 将 此 向 量 存储 为 (1,2,1,1)， 并 在 内 部 将 其 关 

联 为 1 = Typel 和 2 =Type2 (有 具体 赋值 根据 字母 顺序 而 定 ) 。 针 对 向 量 diabetes 进行 

的 任何 分 析 都 会 将 其 作为 名 义 型 变量 对 待 ， 并 自动 选择 适合 这 一 测量 尺度 的 统计 
方法 。 

要 表示 有 序 型 变量 ， 需 要 为 函数 factor( ) 指定 参数 ordered = TRUE 。 给 定向 量 : 











status <—c( "Poor" , "Improved" ," Excellent" , " Poor" ) 

语句 status <- factor( status ,ordered = TRUE ) 会 将 向 量 编码 为 (3,2,1,3) ， 并 在 内 
部 将 这 些 值 关 联 为 1 = Excellent、2 = Improved 以 及 3 = Poor。 

对 于 字符 型 向 量 ， 因 子 的 水 平 默认 依 字 母 顺 序 创建 ， 这 对 于 因子 status 是 有 意义 
的 ， 因 为 “Excellent”“Improved”“Poor” 的 排序 方式 恰好 与 逻辑 顺序 相 一 致 。 如 果 
“Poor” 被 编码 为 “Ailing”， 会 有 问题 ， 因 为 顺序 将 为 “Ailing”“Excellent”“Im- 
proved”。 如 果 理 想 中 的 顺序 是 “Poor” “Improved”“Excellent”， 则 会 出 现 类 似 的 问 
题 。 按 默认 的 字母 顺序 排序 的 因子 很 少 能 够 让 人 满意 。 

可 以 通过 指定 levels 选项 来 覆盖 默认 排序 。 例 如 : 





























status <— factor( status ,order =TRUE ,levels = c(" Poor" ," Improved" , " Excellent" ) ) 


各 水 平 的 赋值 将 为 1 = Poor、2 = Improved 、3 = Excellent。 需 保证 指定 的 水 平 与 数 


据 中 的 真实 值 相 匹配 ， 因 为 任何 在 数据 中 出 现 而 未 在 参数 中 列举 的 数据 都 将 被 设 为 
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默认 值 。 

6) 列表 。 

列表 (List) 是 R 语言 的 数据 类 型 中 最 为 复杂 的 一 种 。 一 般 来 说 ,列表 就 是 一 些 
对 象 或 成 分 (Component) 的 有 序 集合 。 列 表 人 允许 整合 若干 〈 可 能 无 关 的 ) 对 象 到 单 
个 对 象 名 下 。 例 如 ， 某 个 列表 中 可 能 是 若干 向 量 、 和 矩阵 、 数 据 框 ， 甚 至 其 他 列表 的 
组 合 。 可 以 使 用 函数 list( ) 创建 列表 ， 


mylist <— list(objectl ，objectl ,…) 


其 中 的 objecti 可 以 是 目前 为 止 讲 到 的 任何 结构 。 





【 例 1.2]】 
g <— "my first list" # 定 义 字符 串 
h<-e(26,26,18,29) # 定 义 长 度 为 4 的 数值 向 量 
j <— matrix(1:10,nrow =5) # 定 义 5 x2 矩阵 
k <— data. frame(c(1,2),c(3,4)) # 定 义 数据 框 
mylist <— list(title = g,ages =h,j,k) # 定 义 列表 
mylist 


也 可 以 通过 在 双重 方 括号 中 指明 代表 某 个 成 分 的 数字 或 名 称 来 访问 列表 中 的 元 
素 。 此 例 中 ，mylist[ [2]] 和 mylist[[ "ages" ] ] 均 指 那个 含有 四 个 元 素 的 向 量 。 由 于 
以 下 两 个 原因 ， 列 表 成 为 R 中 的 重要 数据 结构 : 首先， 列表 允许 以 一 种 简单 的 方式 
组 织 和 重新 调用 不 相干 的 信息 ; 其 次 ,许多 R 函数 的 运行 结果 都 是 以 列表 的 形式 返 
回 的 ,需要 取出 其 中 哪些 成 分 由 分 析 人 员 决 定 。 


1.3.4 绘 


(1) 图 形 参 数 
par( ) 返 回 当前 绘图 参数 的 列表 。 常 用 绘图 参数 列 于 表 1.4 中 。 


表 1.4 常用 绘图 参数 

















类 型 参 数 用 途 值 
peh 绘制 点 时 的 符号 形状 0 ~25 
We cex 符号 的 大 小 默认 大 小 的 倍数 
lty 线条 的 类 型 1~6 
lwd 线条 的 宽度 默认 大 小 的 倍数 
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类 型 参 数 用 途 值 

col 绘图 颜色 字符 向 量 

col. axis 坐标 轴 刻 度 

col. lab 坐标 轴 标 签 

颜色 col main 标题 

col. sub 副标题 
fg 前 景 
bg 背景 














(2) 自 定义 属性 

1) 标题 title( ) 。 

2) 坐标 轴 axis( ) 。 

3 ) 参考 线 abline(h = yvalues,v = xvalues) 。 

4) 图 例 legend (location ,title ,legend ,…) ，legend 是 图 例 标签 的 字符 向 量 。 
5) 文本 标注 text( ) ,mtext( ) 。 

(3) 图 形 组 合 

1) par( mfrow = ec(nrows,ncols) ) 。 

2) layout( matrix) ，matrix 指定 了 图 形 组 合 的 位 置 布局 。 

(4) 基本 图 形 

1) 条 形 图 : barplot(x,main ="" ,xlab ="" ,ylab ="" ,horiz =FALSE) 。 

2) 饼 状 图 : pie( ) 。 

3) 扇形 图 : plotrix 包 的 fan. plot(x,labels =e() ) ， 适 合 于 大 小 的 比较 。 
4) 直方 图 : hist(x,breaks =n,…) ，breaks 可 以 指定 直方 图 的 条 数 。 

5) 核 密度 图 : 密度 函数 density(x) ， 密 度 图 的 绘制 可 以 是 plot( density( ) ) 直 








接 绘制 ， 或 者 是 在 一 幅 图 上 面 通过 lines( density( ) ) 进行 到 如， 注意: 在 三 加 之 
前 由 于 密度 图 都 小 于 1， 因 此 要 把 之 前 的 图 范围 变 为 1 处 理 ， 添 加 属性 freq = 
上 FALSE 。 





6) 箱 线 图 : boxplot( ) ; 箱 线 图 分 组 展示 : boxplot(formula ,data = dataframe ) ，for- 


mula 形 如 立 -X， 为 变量 X 的 每 个 值 生 成 对 应 YY 的 箱 线 图 。 
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7) 点 图 : dotchart( ) 。 
8) 散 点 图 : plot( ) 。 
9) 回归 曲线 : Im( ) 。 


10) 平滑 的 曲线 : lowess(x,y) 。 
表 1.5 中 列 出 了 R 语言 中 部 分 用 于 数据 展现 的 图 形 。 


表 1.5 R 中 部 分 用 于 数据 展现 的 图 形 


建议 采用 图 形 


要 表达 的 数据 和 信息 





整体 的 一 部 分 


不 同 数据 的 比较 


时 间 序 列 


频率 


两 组 数据 的 相关 性 


和 多 重 数据 、 标 准 相 比较 








1.3.5 数据 准备 


(1) 数据 导入 

对 初学 者 来 讲 ， 面 对 一 片 空白 的 命令 行 窗口 ， 第 一 个 任务 就 是 数据 的 导入 。 数 
据 导 入 有 很 多 途径 ， 例 如 从 网 页 抓 取 、 公 共 数 据 源 获得 、 文 本 文件 导入 。 

例如 ， 读 取 iris. csv 演示 数据 ， 在 R 语言 中 输入 如 下 命令 : 


data <— read. table( iris. csV ,T) 


data <— read. csv( iris. csV ,T) 
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这 里 的 read. table( read. csv) 是 R 语言 读 取 外 部 数据 的 常用 命令 ，T 表示 第 一 行 
是 表 头 信息 ， 整 个 数据 存在 名 为 data 的 变量 中 。 另 一 种 更 方便 的 导 和 人 方法 是 利用 
Rstudio 的 功能 ， 在 Workspace 菜单 选择 “import dataset” 也 是 一 样 的 。 

如 果 导 入 的 文件 大 小 超过 150 MB ， 属 于 大 文件 ， 要 使 用 以 下 命令 : 














library( data. table) 


cl <— fread( "abc. txt" ,encoding =" UTF -8" ,sep =" \t" ,data. table = FALSE) 





参数 data. table = FALSE 表示 导入 的 结果 为 数据 框 ， 否则 为 data. table 类 型 ， 默 
认为 data. table 类 型 。 

(2) 数据 子 集 

如 果 只 关注 数据 的 一 部 分 ,例如 从 原 数 据 中 抽取 第 20 ~30 号 样本 的 Sepal. Width 
变量 数据 ， 因 为 Sepal. Width 变量 是 第 2 个 变量 ， 所 以 此 时 键入 下 面 的 命令 即 可 : 














newdata <— data[ 20:30 ,2 ] 





如 果 需 要 抽取 所 有 数据 的 Sepal. Width 变量 ， 那 么 下 面 两 个 命令 是 等 价 的 ; 





newdata <— data[ ,2 ] 


newdata <— data$ Sepal. Width 


(3) 数据 描述 

str(x) :显示 数据 x 的 结构 ， 如 变量 数量 、 变 量 类 型 、 观 测 值 等 。 

summary( patient) : 显示 统计 概要 。 

dim( patientdata) : 显示 数据 框 patientdata 维 数 。 

(4) 抽样 函数 

如 果 从 1~10 中 随机 抽取 5 个 数字 ， 则 首先 产生 一 个 序列 ， 然 后 用 sample 函数 
进行 无 放 回 抽取 。 









































x=1:10 


sample(x, size =5) 





有 放 回 抽取 则 是 
sample(x, size =5 ,replace =T) 


sample 函数 在 建 模 中 经 常用 来 对 样本 数据 进行 随机 的 划分 ， 一 部 分 作为 训练 数 


据 ; 男 一 部 分 作为 检验 数据 。 
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1.3.6 基本 运算 


(1) 常用 计算 函数 

1) mean(x) : 均值 。 

2) sum(x): 求 和 。 

3) min(x) : 最 小 值 。 

4) max(x) : 最 大 值 。 

5) var(x) : 方差 。 

6) sd(x) : 标准 差 。 

7) cov(x,y) : 协 方差 。 

8) cor(x,y) : 相关 度 。 

9) prod(x) : 所 有 值 相 乘 的 积 。 

10) which(x 的 表达 式 ) : 如 which. min(x) ，which. max(x) 。 
11) rev(x): 反 转 。 

12) sort(x) : 排序 。 

(2) 行列 命名 

1) colnames(matrix) =c("","",..), 

2) rownames(matrix) =c("","",..), 

(3) 矩阵 运算 

1) 矩阵 相 乘 : A% * %B。 

2) t(matrix) ;和 矩阵 转 置 。 

3) diag( matrix) : 矩阵 的 对 角 (向 量 ) ;，diag( diag(matrix) ) ， 对 角 和 矩阵 。 
4) solve( matrix) : 矩阵 求 逆 。 

5) eigen( matrix) : 特征 值 和 特征 向 量 。 

6) svd( matrix) : 奇异 值 分 解 ， 返 回 X 包含 属性 U、d、V。 














1.4 FNN 的 R 实现 


【 例 1.3】 以 萝 尾 花 数据 集 (iris) 为 例 ， 将 萝 尾 花 数 据 分 为 两 类 ， setosa 、versico- 
lor。 输 入 特征 为 花 办 长 度 与 宽度 。 不 使 用 包 编写 感知 器 R 脚本 。 
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(1) iris 数据 结构 


(2) 


> str(iris) 


' data. frame :150 obs. of $ variables : 


$Sepal. Length :num 5.1 4.94.74.655.44.654.44.9... 
$Sepal. Width :num 3.533.23.13.63.93.43.42.93.1... 
$Petal. Length :num 1.41.41.31.51.41.71.41.51.41.5... 


$Petal. Width 
$Species 
111111... 


建 模 


:Factor w/3 levels "setosa", 


>a<-0.2 
>w<-rep(0,3) 
>irisl <—t(as. matrix(iris| ,3:4]) ) 
>d<-c(rep(0,50) ,rep(1,100)) 
>e<-rep(0,150) 
>p<-rbind(rep(1,150) ,irisl) 
> max <— 100000 
> eps <— rep(0,100000) 
>i<-0 
> repeat| 
V<—w% * Wp; 
y <— ifelse( sign(v) >=0,1,0); 
e<—-d-y; 
eps[i+1] <-sum(abs(e) )/length( e) 
if(eps[i+1] <0.01)| 
print( "finish:" ) ; 
print(w) ; 
break ; 
| 
w<-wta*(d-y)% *%t(p); 
i<-i+l; 
if(i>max) | 
print( " max time loop" ); 


print(eps[ i]) 


versicolor" 


:num 0.2 0.2 0.20.20.20.40.30.20.20.1... 


sl111 


# 学 习 率 

# 初 始 权 习 
# 训 练 数据 
# 理 论 输出 值 


mt 





# 给 数据 加 标签 

# 夫 代 次 数 上 限 

# 初 始 误差 

# 和 初始 化 迭代 次 数 

# 开 始 和 欠 代 

# 计 算 加 权 和 

# 根 据 激活 函数 计算 实际 输出 值 
# 计 算 误 差 

# 结 算 平均 误差 

# 达 到 逼近 精度 , 则 迭代 终止 





# 修 改 权 习 
# 从 代 次 数 
# 如 果 达 到 迭代 次 数 上 限 , 则 迭代 终止 


mt 








print(y) ; 
break ; 


| 
[1] "finish:" 
Petal. Length Petal. Width 
[1,] -39.6 10. 82 18. 82 


(3) 可 视 化 





# 分 类 结果 如 图 1. 11 所 示 


> plot( Petal. Length ~ Petal. Width ,xlim = c(0,3) ,ylim=c(0,8), 











data = iris[ iris$ Species == " virginica" , ] ) 

> datal <— iris[ iris$ Species == " versicolor" , | 

> points( datal $ Petal. Width ,datal $ Petal. Length ,col =2) 
> data2 <— iris[ iris$ Species == " setosa" , | 

> points( data2$ Petal. Width ,data2$Petal. Length ,col =3) 
>x<-seq(0,3,0.01) 

>y<-x*(—wL2]/w[3]) —w[1]/wL3] 


> lines(x,y,col =4) 

















8F 
2 
o © 
外 ee 
oo 8 目 。 
ep oA 和 上 自 8 8 
aod Bose 
局 4 上 8 € 
Ee 
5 
A 
Th 
0F 1 | | | | | | 
0.0 0.5 1.0 1.5 2.0 2:5 3.0 


Petal. Width 


图 1.11 分 类 结果 图 























这 是 运行 了 7 次 得 到 的 结果 。 感 兴趣 的 读者 可 以 与 支持 向 量 机 相 比 ， 表 明神 经 
网 络 的 单 层 感知 絮 分 类 不 是 那么 的 可 信 ， 有 些 弱 。 可 以 发 现 交叉 验证 结果 并 不 理想 。 























> plot(1:i,eps[ 1:i] ,type ="o" ) # 每 次 迭代 的 平均 绝对 误差 ,如 图 1. 12 所 示 
【 例 1.4】 例 1.3 续 
使 用 nnet 包 创 建 单 层 FNN 模型 。 
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0.65 


0.55 上 


eps[1:i] 


0.35 














图 1.12 每 次 迭代 的 平均 绝对 误差 


(1) 加 载 使 用 的 包 和 数据 





> library( nnet) ; # 安 装 nnet 软件 包 

> library( mlbench ) ; # 安 装 mlbench 软件 包 
(2) 数据 准备 
随机 选择 半数 观测 作为 训练 集 ， 剩 下 的 作为 测试 集 。 


> set. seed(1); # 设 随机 数 种 子 
>ir<—rbind(iris3[ ,1 | ,iris3|[ ,2 |] ,iris3[ ,3]) 








> targets <— class. ind(c(rep("s" ,50) ,rep("c" ,50) ,rep("v" ,50))) 
> samp <— c(sample(1:50,25) ,sample($51:100,25) ,sample(101:150,25 ) ) 


(3) 建 模 
建 模 用 到 nnet 包 中 的 nnet 函数 ， 其 调用 格式 为 
>irl <— nnet(ir[ samp, ] ， # 数 据 集 
targets[ samp, | ， 
size =2， # 隐 层 结 点 数 
rang =0. 1 ， 
softmax = censored ， # 分 类 算法 
decay =5e -4， # 表 明 权 值 是 递减 的 (可 以 防止 过 拟 合 ) 
maxit = 200 # 最 大 迭代 次 数 
) 


构建 只 包含 有 3 个 结 点 的 一 个 隐藏 层 神经 网 络 。 
(4) 模型 部 署 
适用 于 神经 网 络 的 部 署 方法 为 predict。 
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test. cl <— function( true, pred) | 
true <— max. col( true) 
cres <— max. col( pred) 
table( true ,cres ) 

| 


test. cl( targets[ - samp, | ,predict(irl ,irl -samp,])) 





1 24 0 1 
2 0 25 0 
3 7 0 18 


1.5 学 习 指南 


FNN 简称 神经 网 络 ， 是 一 种 模仿 生物 神经 网 络 的 结构 和 功能 的 数学 模型 或 计算 
模型 。FNN 由 大 量 的 人 工 神经 元 连接 在 一 起 进行 计算 。 大 多 数 情 况 下 FNN 能 在 外 界 
言 息 的 基础 上 改变 内 部 结构 ， 是 一 种 自 适应 系统 。 现 代 FNN 是 一 种 非 线 性 统计 性 数 
据 建 模 工具 ， 常 用 来 对 输入 和 输出 间 复 杂 的 关系 进行 建 模 ， 或 用 来 探索 数据 的 模式 。 

FNN 从 以 下 四 个 方面 去 模拟 人 的 智能 行为 : 

1) 物理 结构 : 神经 元 模拟 生物 神经 元 的 功能 。 

2) 计算 模拟 : 人 脑 的 神经 元 有 局 部 计算 和 存储 的 功能 ， 通 过 连接 构成 一 个 系 
统 。FNN 中 也 有 大 量 有 局 部 处 理 能 力 的 神经 元 ， 能 够 将 信息 进行 大 规模 并 行 处 理 。 

3) 存储 与 操作 : 人 脑 和 人 工 神 经 网 络 都 是 通过 神经 元 的 连接 强度 来 实现 记忆 存 
储 功能 ， 同 时 为 概括 、 类 比 、 推 广 提供 有 力 的 支持 。 

4) 训练 : 同人 脑 一 样 ，FNN 将 根据 自己 的 结构 特性 ， 使 用 不 同 的 训练 、 学 习 过 
程 ， 自 动 从 实践 中 获得 相关 知识 。 

FNN 是 一 种 运算 模型 ， 由 大 量 的 结 点 (或 称 “ 神 经 元 ”或 “单元 ”) 之 间 相 互 
连接 构成 。 每 个 结 点 代表 一 种 特定 的 输出 函数 ， 称 为 激励 函数 。 每 两 个 结 点 间 的 连 
接 代表 通过 该 连接 的 信号 加 权 值 ， 称 为 权重 ， 这 相当 于 人 工 神经 网 络 的 记忆 。 网 络 
的 输出 则 依据 网 络 的 连接 方式 、 权 重 值 和 激励 函数 的 不 同 而 不 同 。 而 网 络 自 身 通常 
都 是 对 自然 界 茶 种 算法 或 者 函数 的 逼近 ， 也 可 能 是 对 一 种 逻辑 策略 的 表达 。 
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第 2 章 深度 神经 网 络 DNN 


在 实际 应 用 中 ， 深 度 学 习 技术 已 经 取得 了 非凡 的 成 就 。 经 过 几 十 年 的 研究 ， 几 
乎 所 有 的 ， 尤 其 是 核心 的 那 几 位 研究 者 都 认为 这 些 应 用 以 前 是 不 可 能 的 ， 现 在 都 变 
得 可 行 了 。 因 为 相 比 于 其 他 先进 的 机 器 学 习 工 具 ， 深 度 神经 网 络 (Deep Neural Net- 
work，DNN) 在 一 系列 诸如 目标 检测 、 场 景 理解 、 喧 挡 检测 等 应 用 中 表现 出 了 优越 
的 性 能 。 

DNN 模型 在 包括 过 拟 合 和 和 鲁 棒 性 方面 都 具有 优秀 的 预测 能 力 ， 因 此 它 得 到 了 快 
速 的 发 展 (商业 领域 ) 和 广泛 的 应 用 ， 并 且 它 的 应 用 还 在 逐渐 增长 。 

本 章 将 讨论 几 个 在 DNN 上 应 用 的 例子 : 雾 天 视觉 增强 、 恶 意 软件 检测 、 图 像 压 
缩 和 函数 通 近 。 通 过 这 些 例 子 的 学 习 ， 将 学 会 使 用 一 系列 R 包 ， 掌握 一 些 数据 科学 
技巧 ， 获 得 一 些 提高 DNN 性 能 的 建议 。 





> 








2.1 DNN 原理 








线性 模型 通过 特征 间 的 线性 组 合 来 表达 “结果 - 特征 集合 ”之 间 的 对 应 关系 。 
由 于 线性 模型 的 表达 能 力 有 限 ， 在 实践 中 ， 只 能 通过 增加 “特征 计算 ”的 复杂 度 来 
优化 模型 。 比 如 ， 在 广告 点 击 通过 率 (CTR) 预 估 应 用 中 ， 除 了 “标题 长 度 、 描 述 
长 度 、 位 次 、 广 告 ID，Cookie” 等 这 样 的 简单 原始 特征 ， 还 有 大 量 的 组 合 特征 ( 比 
如 “位 次 - Cookie” 表 示 用 户 对 位 次 的 偏好 ) 。 事 实 上 ， 现 在 很 多 搜索 引擎 的 广告 系 
统 用 的 都 是 Logistic Regression 模型 (线性) ， 而 建 模 最 重要 的 工作 之 一 就 是 “特征 
抽取 ”。 

线性 模型 的 思路 是 “简单 模型 + 复杂 特征 ”， 用 这 样 的 组 合 实现 复杂 非 线性 场景 
描述 。 由 于 模型 结构 简单 ， 这 种 做 法 的 训练 “ 预 估 计算 代价 相对 较 小 ; 但 是 ， 特 征 的 
选取 是 一 个 需要 耗费 大 量 人 力 的 工作 ， 且 要 求 相 关 人 员 对 业务 有 较 深 的 理解 。 

建 模 的 另外 一 个 思路 是 “复杂 模型 + 简单 特征 ”。 即 弱化 特征 工程 的 重要 性 ， 利 
28 
















































































用 复杂 的 非 线 性 模型 来 学 习 特 征 间 的 关系 ， 增 强 表达 能 力 。DNN 模型 就 是 这 样 一 个 
非 线 性 模型 。 

如 图 2. 1 所 示 ， 深 度 神 经 网 络 包 括 一 个 输入 层 ， 一 个 输出 层 ， 还 有 介 于 这 两 层 
之 间 的 多 个 隐藏 层 。 它 类 似 于 多 层 感 知 机 ， 但 是 它 拥 有 多 个 隐藏 层 ， 而 且 每 个 隐藏 
层 都 有 多 个 相互 连接 的 神经 元 。DNN 的 多 个 隐藏 层 的 优势 在 于 能 够 逼近 复杂 的 决策 
函数 。 











输出 层 











输入 层 





图 2.1 DNN 模型 





隐藏 层 的 作用 是 实现 复杂 函数 的 转换 。 它 们 连接 着 输入 层 ， 为 输入 值 标记 权重 
并 且 结 合 对 输入 值 标记 的 权重 产生 一 个 全 新 的 、 真 实 的 数值 ， 然 后 传递 给 输出 层 。 
输出 层 使 用 在 隐藏 层 中 计算 得 来 的 抽象 的 特征 进行 分 类 或 者 预测 。 

若 想 在 很 短 时 间 内 ， 全 面 地 、 明 确 地 理解 DNN， 隐 藏 层 便 是 DNN 的 秘密 所 在 ， 
隐藏 层 神经 元 执行 的 非 线性 数据 转换 是 该 技术 的 核心 。 

从 图 2. 1 可 以 看 到 ，DNN 是 神经 元 个 体 的 组 合 ， 这 些 神经 元 相互 连接 ， 可 以 使 
输出 的 组 合 更 加 灵活 。 正 是 这 样 的 灵活 性 ， 使 得 它们 可 以 逼近 任何 函数 。 

多 层 的 好 处 是 可 以 用 较 少 的 参数 表示 复杂 的 函数 。 

在 有 监督 学 习 中 ， 以 前 的 多 层 神经 网 络 的 问题 是 容易 陷入 局 部 极 值 点 。 如 果 训 
练 样本 足够 充分 覆盖 未 知 样本 ， 那 么 学 到 的 多 层 权 重 可 以 很 好 地 用 来 预测 新 的 测试 
样本 。 但 是 很 多 任务 难以 得 到 足够 多 的 标记 样本 ， 在 这 种 情况 下 ， 简 单 的 模型 ， 如 
线性 回归 或 者 决策 树 往 往 能 得 到 比 多 层 神经 网 络 更 好 的 结果 (更 好 的 泛 化 性 以 及 更 
小 的 训练 误差 ) 。 

在 无 监督 学 习 中 ， 以 往 没 有 有 效 的 方法 构造 多 层 网 络 。 多 层 神经 网 络 的 顶层 是 
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底层 特征 的 高 级 表示 ， 例 如 ， 对 图 像 而 言 ， 底 层 是 像素 点 ， 上 一 层 的 结 点 可 能 表示 
纳 线 、 三 角 ; 而 顶层 可 能 有 一 个 结 点 表示 人 脸 。 一 个 成 功 的 算法 应 该 能 让 生成 的 顶层 
特征 最 大 化 地 代表 底层 的 样 例 。 如 果 对 所 有 层 同 时 训练 ， 时 间 复 杂 度 会 太 高 ; 如 果 
每 次 训练 一 层 ， 误 差 就 会 逐 层 传递 。 这 会 面临 与 上 面 有 监督 学 习 中 相反 的 问题 ， 会 
严重 欠 拟 合 。 
2006 年 ，Hinton 提出 了 在 无 监督 数据 上 建立 多 层 神 经 网 络 的 一 种 有 效 方法 ， 简 
单 地 说 ， 分 为 两 步 : 一 是 每 次 训练 一 层 网 络 ; 二 是 微调 。 微 调 的 目的 是 使 原始 数据 > 
向 上 生成 x 的 高 级 表示 >， 该 高 级 表示 向 下 生成 的 * 要 尽 可 能 与 x 一 致 ， 具 体 方法 
如 下 : 

1) 逐 层 构建 单 层 神经 元 ， 这 样 每 次 都 是 训练 一 个 单 层 网 络 。 

2) 当 所 有 层 训练 完 后 ， 使 用 Wake - Sleep 算法 进行 微调 。 将 除 最 顶层 的 其 他 层 
间 的 权重 变 为 双向 的 ， 这 样 最 顶层 仍然 是 一 个 单 层 神经 网 络 ， 而 其 他 层 则 变 为 图 模 
型 。 向 上 的 权重 用 于 “ 认 知 ”， 向 下 的 权重 用 于 “生成 ”"。 然 后 使 用 Wake - Sleep 算 
法 调整 所 有 的 权重 。 让 认 知 和 生成 达成 一 致 ， 也 就 是 保证 生成 的 最 顶层 表示 能 够 尽 
可 能 正确 地 复原 底层 的 结 点 。 例 如 ， 顶 层 的 一 个 结 点 表示 人 脸 ， 那么 所 有 人 脸 的 图 
像 应 该 激活 这 个 结 点 ， 并 且 这 个 结果 向 下 生成 的 图 像 应 该 能 够 表现 为 一 个 大 概 的 人 
脸 图 像 。Wake - Sleep 算法 分 为 醒 (Wake) 和 了 睡 (Sleep) 两 个 部 分 。 

@ Wake 阶段 ， 认 知 过 程 。 通 过 外 界 的 特征 和 向 上 的 权重 ( 认 知 权重 ) 产生 每 一 
层 的 抽象 表示 ( 结 点 状态 ) ， 并 日 使 用 梯度 下 降 修 改 层 间 的 下 行 权重 (生成 权重 )。 也 
就 是 “如 果 现 实 跟 我 想象 的 不 一 样 ， 改 变 我 的 权重 使 得 我 想象 的 东西 就 是 这 样 的 ”。 

@) Sleep 阶段 ， 生 成 过 程 。 通 过 顶层 表示 ( 醒 时 学 得 的 概念 ) 和 向 下 权重 ， 生 
成 底层 的 状态 ， 同 时 修改 层 间 向 上 的 权重 。 也 就 是 “如 果 梦 中 的 景象 不 是 我 脑 中 的 
相应 概念 ， 改 变 我 的 认 知 权重 使 得 这 种 景象 在 我 看 来 就 是 这 个 概念 ”。 

由 于 自 编码 网 络 (Auto Encoder) ,广义 上 的 自 编码 网 络 是 指 所 有 的 从 低级 表示 
得 到 高 级 表示 ， 并 能 从 高 级 表示 生成 低级 表示 的 近似 结构 ， 狭 义 上 指 的 是 其 中 的 一 
种 ,谷歌 的 猫 脸 识别 用 的 ) 有 联想 功能 ， 也 就 是 缺失 部 分 输入 也 能 得 到 正确 的 编码 ， 
所 以 上 面 说 的 算法 也 可 以 用 于 有 监督 学 习 ， 训 练 时 ，y 作为 顶层 网 络 输入 的 补充 ， 应 
用 时 ,顶层 网 络 生 成 y'。 



































































































































2.2 DNN 应 用 





19 世纪 70 年 代表 ， 日 本 东京 的 NHK 广播 科学 实验 室 开发 了 只 有 一 层 的 神经 网 
3 了 0 








络 系统 。 它 是 一 种 视觉 图 像 识 别 的 神经 网 络 ， 尽 管 它 有 了 相当 大 的 突破 ， 但 这 种 技 
术 在 学 术 研究 领域 停留 了 几 十 年 。 

为 了 认识 DNN， 先 看 一 下 DNN 的 三 个 典型 的 应 用 。 在 这 些 应 用 中 ， 读 者 将 看 到 
DNN 在 更 广泛 领域 ， 有 着 巨大 应 用 潜力 。 


2.2.1 提高 雾 天 视觉 能 见 度 





毫 无 疑问 ， 在 有 雾 的 情况 下 ， 诸 如 目标 检测 、 跟 踪 等 视觉 活动 会 变 得 困难 ， 导 
航 也 会 变 得 格外 困难 。 这 是 因为 在 雾 天 行驶 中 ， 大 气 中 的 雾 手 微粒 吸收 和 散射 光线 ， 
使 得 视觉 场景 模糊 ， 对 比 度 降 低 ， 雾 严重 地 降低 了 能 见 度 。 因 为 能 见 度 的 下 降 会 影 
响 驾 驶 员 的 判断 ， 引 起 远 距 离 检测 系统 发 生 错 误 感知 ， 所 以 视觉 预测 和 视觉 增强 算 
法 有 着 巨大 的 实际 价值 。 

一 般 来 说 ， 除 雾 算 法 需要 同一 场景 没有 雾 的 图 像 ， 或 有 雾 图 像 中 的 突出 对 象 ， 
如 车 道 标记 或 交通 标志 。 汉 阳 大 学 教授 Jechang Jeong 和 Farhan Hussain 开发 了 除 雾 深 
度 神 经 网 络 ， 具 体 算法 详 见 图 2. 2。 

虽然 提供 的 模型 并 没有 约束 训练 ， 但 事实 证 明 ， 对 于 图 像 除 雾 有 很 好 的 效果 。 
如 图 2.3 所 示 ， 图 2. 3a 是 原始 无 雾 场景 ， 图 2.3b 是 有 雾 场 景 ， 图 2. 3c 是 使 用 DNN 
除 雾 后 的 图 片 。 






































2.2.2 打击 黑客 和 网 络 犯 罪 





只 要 使 用 互联 网 ， 木 马 、 蠕 虫 、 间 谍 软 件 和 僵尸 网 络 等 恶意 软件 都 可 以 使 计算 
机 陷入 准将 ， 网 络 罪 犯 利 用 这 些 软件 可 以 获取 非法 利益 。 

如 果 有 了 文件 备份 ， 可 以 避免 经 济 损失 ， 然 而， 恶意 软件 浪费 了 时 间 ， 造 成 铠 
慌 和 焦虑 ， 因 为 文件 的 恢复 需要 数 天 时 间 。 这 样 的 攻击 不 仅 影响 个 人 的 合法 业务 ， 
还 影响 了 企业 ， 甚 至 政府 的 正常 运转 。 尽 管 已 经 采取 了 许多 方法 进行 遏制 ， 但 这 些 
恶性 活动 仍然 十 分 猩 狐 。 

Invincea 实验 室 的 Joshua Saxe 和 Konstantin Berlin 使 用 深度 神经 网 络 识别 恶意 
软件 。 他 们 所 使 用 DNN 的 结构 由 一 个 输入 层 、 两 个 隐藏 层 和 一 个 输出 层 组 成 。 输 
人 层 有 1024 个 输入 特征 ， 隐 藏 层 各 有 1024 个 神经 元 。jJoshua 和 Konstantin 使 用 超 
过 400000 个 二 进 制 文件 来 测试 他 们 的 模型 ， 这 些 数据 是 直接 从 他 们 的 客户 和 内 部 
恶意 软件 存储 库 中 获得 的 。 

他 们 在 0. 1% 的 假 阳 性 情况 下 检 出 率 为 95% 。 真 正 了 不 起 的 是 ， 通 过 直接 学 习 
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停止 网 络 训练 





光栅 化 (ID 输入 模式 ) 
随机 初始 化 DNN 的 权重 













当前 输入 模式 并 计算 误差 

















Error 到 一 
acceptable error? 









保存 网 络 权 值 





的 权重 值 








Iteration 之 一 
max.iteration? 





Iteration=Iteration+1 





保存 网 络 权 值 





反 向 传播 到 输出 层 





















反 向 传播 到 隐藏 层 


更 新 权 值 









Et » 
1 训练 会 
请 对 训练 会 话 


[|] 已 训练 网 络 会 话 





图 2.2 Hussain 的 除 雾 DNN 算法 


所 有 二 进 制 文件 来 达到 这 些 结果 ,没有 进行 任何 滤波 、 拆 包 或 手动 将 二 进 制 文件 分 


类 等 操作 ， 这 是 令 人 震惊 的 ! 
了 2 
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C) 
图 2.3 样本 sain 的 去 雾 DNN 算法 








该 如 何 解 释 使 用 深度 神经 网 络 获得 的 优秀 结果 呢 ? 研究 人 员 评论 道 :“ 神 经 网 络 
有 多 种 属性 ， 适 用 于 恶意 软件 检测 。 首 先 ， 深 度 神经 网 络 允 许 增 量 学 习 ， 因 此 ， 深 
度 神经 网 络 不 仅 可 以 分 块 训练 ， 而 且 可 以 高 效 地 再 训练 ， 直 到 收集 到 新 的 训练 数据 ; 
其 次 ， 通 过 单 层 的 预 训 练 ， 可 以 把 标记 和 未 标记 的 数据 组 合 起 来 ; 第 三 ， 分 类 器 非 
常 紧凑 ， 所 以 ， 在 使 用 少量 内 存 的 情况 下 ， 可 以 快速 进行 预测 。” 




















2.2.3 图像 压缩 


Jeong 和 Hussain 已 经 找 出 使 用 深度 神经 网 络 来 压缩 图 片 的 方法 ， 如 图 2.4 所 示 。 

注意 ， 这 个 模型 由 两 部 分 组 成 一 一 “编码 ”和 “解码”， 对 应 图 片 压 缩 和 解压 
两 个 阶段 。 第 一 阶段 是 图 片 的 压缩 ; 第 二 阶段 是 图 片 的 解压 缩 ， 恢 复 最 初 的 图 片 。 
WA 经 元 数量 对 应 于 图 像 压 缩 的 大 小 ， 相 对 于 原始 输入 ， 通 过 给 最 
后 一 个 隐 层 的 神经 元 指定 一 个 较 小 的 数量 ， 达 到 压缩 的 目的 。 
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研究 者 将 他 们 的 想法 应 用 于 多 个 测试 图 片 ， 得 到 了 不 同 的 图 像 压缩 比 。 对 于 隐藏 
层 的 激活 函数 ， 使 用 了 修正 的 线性 单元 ， 因 为 它们 能 “ 带 来 更 好 的 网 络 归 一 化 ， 并 且 
减少 了 压缩 -解压 缩 的 时 间 ”。Jeong 和 Hussain 同时 也 使 用 多 层 感 知 机 激活 函数 来 运行 
这 个 模型 。 

图 2. 5 使 用 三 张 不 同 的 图 片 展示 了 研究 的 结果 。 图 2. Sa 是 原始 图 像 ， 图 2. 5b 是 
使 用 修正 线性 单元 压缩 后 的 图 片 ， 图 2. Se 是 使 用 多 层 感知 机 激活 函数 重 构 的 图 像 。 
研究 人 员 发 现 ， 基 于 DNN 学 习 的 压缩 /解压 效果 很 好 。 
































| 
压缩 解压 缩 








图 2.4 Jeong 和 Hussain 的 图 像 压缩 DNN 
ReLU 一 修正 的 线性 单元 





2.2.4 因数 逼近 


不 久 前 ，Hornik 等 人 发 现 ， we 

Hornik 定理 : 假设 下 是 于 维 坐标 系 中 的 有 界 连 续 函 数 。 那 么 存在 一 个 两 层 神经 
网 络 玉 ， 玉 具有 有 限 个 隐藏 层 的 神经 元 ， 这 些 神 纤 es 也 就 是 ， 
对 于 三 定 义 域内 的 任意 x, 都 有 |F(x) -F(x)|<e。 

定理 意味 着 ， 对 于 任何 连续 函数 尺 可 以 通过 建立 一 个 单 隐藏 层 的 神经 网 络 来 计 
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图 2.5 基于 DNN 图 像 压缩 结 且 








算 。 至 少 在 理论 上 ， 对 于 很 多 问题 ， 一 个 隐藏 层 应 该 足够 了 。 

当然 ， 在 实践 中 还 是 有 些 问 题 。 首 先 ， 真 实 世 界 的 决策 函数 可 能 不 是 连续 的 ， 
对 于 非 连续 函数 ， 这 个 定理 没有 指定 所 需 的 隐藏 层 的 神经 元 数量 。 看 来 ， 对 于 很 多 
实际 问题 ， 需 要 多 个 隐藏 层 来 进行 准确 分 类 和 预测 。 尽 管 如 此 ， 这 个 定理 仍旧 有 一 
些 实用 的 价值 。 

【 例 2.1】 使 用 R 来 创建 一 个 DNN 实现 函数 y=x 的 近似 。 

(1) 加 载 用 到 的 包 





> library ( neuralnet ) 


(2) 描述 y=x 








> set seed (2016) # 用 来 保证 结果 的 重复 性 
> attribute <— as. data. frame( sample( seq( -2,2,length =50) ,50， 
replace = FALSE) ,ncol =1) # attribute 为 属性 变量 x 
> response <— attribute 2 扩 esponse 为 响应 变量 y 
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第 二 行 产 生 了 50 个 -2 ~2 的 观察 值 ， 其 结果 保存 在 R 对 象 atmibute 中 。 第 








使 用 R 对 象 response 保存 计算 结果 y =xx?。 
将 attribute 和 response 组 合成 数据 框 对 象 (用 数据 框 表示 数据 是 一 个 好 办 法 ， 会 


使 R 编码 变 得 简单 ) : 


> data <— cbind( attribute , response ) 


> colnames (data) <—c("attribute" ,"response" ) 


查看 数据 的 前 10 个 观测 值 : 


> head (data,10) 





attribute response 
1 -1.2653061 1. 60099958 
2 -1.4285714 2. 04081633 
3 1. 2653061 1. 60099958 
4 -1.5102041 2. 28071637 
5 -0.2857143 0. 08163265 
6 -1.5918367 2. 53394419 
7 0. 2040816 0. 04164931 
8 1. 1020408 1. 21449396 
9 -2. 0000000 4. 00000000 
10 -1.8367347 3. 37359434 
>plot(data) ”# 画 出 散 点 图 


























不 出 所 料 ， 响 应 变量 正 是 属性 变量 的 平方 。 它 的 可 视 化 图 像 如 图 2. 6 所 示 。 
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图 2.6 y=xw 模 拟 数据 的 图 像 


(3) 建 模 








0 
属性 变量 
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建立 一 个 包含 两 个 隐藏 层 、 每 层 由 三 个 神经 元 组 成 的 DNN， 具 体 的 方法 如 下 : 


>fit <— neuralnet (response ~ attribute, data = data, hidden = c(3,3) ,threshold =0. 01) 
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公式 response ~ attribute 遵循 标准 的 R 实践 ， 立 值 很 大 程度 上 要 根据 应 用 的 模型 
来 定 。 图 2.7 显示 的 模型 用 了 3191 步 使 误差 收敛 到 0. 012837。 

















attribute response 











图 2.7 yy= 巡 的 DNN 模型 


(4) 模型 部 署 
使 用 测试 样本 来 看 在 进行 函数 近似 时 ， 模 型 是 多 么 的 好 。 在 -2 ~2 之 间 产 生 10 
个 观察 值 ， 然 后 将 结果 保存 在 R 对 象 testdata 中 。 





> testdata <— as. matrix( sample( seq( -2,2,length =10) ,10,replace =FALSE) ,ncol =1) 
使 用 compute 函数 完成 预测 : 


> pred <— compute (fit,testdata) 











注意 ; 想 知 道 在 R 对 象 中 哪些 属性 是 可 用 的 ， 只 需要 输入 : 


attributes (object_name) 





例如 ， 想 要 知道 属性 pred， 只 要 输入 : 


> attributes (pred) 


$names 


[1] " neurons net，result " 


了 7 


使 用 $net result 可 以 获取 pred 的 预测 值 








> result <— cbind(testdata ,pred$net . result, testdata “2) # 组 合 数据 
> colnames (result) <-c(" Attribute" ," Prediction" ," Actual" ) # 命 名 列 名 
> round( result ,4) # 精 确 到 四 位 小 数 
Attribute Predication Actual 
[1,] 1.5556 2.4010 2.4198 
[2,] 0.6667 0.4183 0.4444 
[3,] 0.2222 0.0665 0.0494 
[4， —1.1111 1.2346 1.2346 
[5,] 2. 0000 3.9595 4.0000 
[6,] -1.5556 2.4187 2.4198 
[7,] -0.6667 0.4394 0.4444 
8 ， 一 0. 2222 0.0525 0.0494 
9,] -2.0000 3. 9440 4.0000 
[10，, 1.1111 1.2563 1.2346 
> plot( result) ”# 画 出 散 点 图 











预测 和 拟 合 值 如 图 2.8 所 示 ， 数 据 显示 DNN 提供 了 一 个 很 好 的 模型 ， 虽然 不 确 











切 ， 但 十 分 接近 实际 的 函数 。 
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3 上 
dl 
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1 上 
0 上 1 1 A | | 
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属性 变量 
图 2.8 DNN 预测 值 和 拟 合 值 
2.3 DNN 应 用 需要 注意 的 一 些 问题 
2.3.1 神经 元 数量 





DNN 的 潜力 取决 于 每 层 神 经 元 数量 。 对 于 这 个 问题 的 一 种 解决 方法 是 考虑 从 数 
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据 包 含 的 变量 中 提取 的 特征 数 。 

一 般 的 做 法 是 每 层 使 用 更 多 的 神经 元 来 检测 数据 中 更 精细 的 结构 。 然 而 ,使 用 
的 隐藏 神经 元 越 多 ， 过 拟 合 的 风险 越 高 ， 即 : 结果 在 样本 中 表现 非常 好 ， 在 非 样本 
中 却 很 差 。 

在 构建 DNN 模型 时 ， 为 了 最 好 的 泛 化 能 力 ，DNN 应 该 使 用 尽 可 能 少 的 神经 元 来 
解决 问题 。 训 练 模式 的 数量 越 大 ， 同 时 要 保持 DNN 的 泛 化 能 力 ， 所 使 用 的 神经 元 的 
数量 也 就 越 大 。 


























2.3.2 最 佳 层 数 的 选择 


在 构建 和 使 用 DNN 时 ， 面 临 的 主要 困难 之 一 是 选择 适当 的 层 数 ， 该 问题 具有 一 
定 的 挑战 性 。 虽 然 在 训练 样本 上 训练 DNN 的 误差 非常 小 ， 但 是 在 非 训 练 样 本 可 能 
现 得 非常 糟糕 ， 讨 论 最 新 趋势 的 文章 很 少 揭示 这 个 问题 的 真相 。 

在 教科 书 中 ， 我 们 所 看 到 的 都 是 成 功 的 模型 ， 对 于 没有 经 验 的 人 来 说 ， 觉 得 构 
建 模型 很 容易 、 很 简单 。 实 际 上 ， 如 果 你 已 经 花 了 一 些 时 间 部 署 商业 模型 ， 那 么 你 
一 定 会 在 模型 开发 阶段 投入 相当 多 的 时 间 、 精 力 和 智力 资本 。 

不 幸 的 是 ， 即 使 二 十 个 模型 在 训练 集 上 表现 得 都 相当 好 ， 也 只 有 五 六 个 模型 是 
真 的 好 。 因 此 ， 每 一 个 模型 都 有 可 能 在 测试 样本 上 遭遇 惨败 ;更 糟 的 是 ， 应 用 模型 
可 能 会 扼杀 你 的 机 会 。 因 此 ， 选 择 适 当 数 量 的 层 至 关 重 要 。 

找到 最 佳 层 数 的 本 质 是 一 个 模型 选择 问题 。 它 可 以 使 用 传统 的 模型 选择 技术 ， 
最 常用 的 方法 之 一 就 是 反复 试验 法 ， 其 次 是 使 用 系统 的 全 局 搜索 和 选择 标准 。 如 果 
将 每 个 隐藏 层 视 为 一 个 特征 检测 右 ， 那 么 层 越 多 ， 就 可 以 学 习 更 复杂 的 特征 检测 带 。 
这 催生 了 一 个 直截了当 的 经 验 法 则 ， 函 数 越 复 林 ， 使 用 的 层 就 越 多 。 





































































































2.3.3 训练 时 间 过 长 





在 大 数据 集 上 运行 神经 网 络 需要 耐心 。 由 于 传统 神经 网 络 算法 本 质 上 是 梯度 下 
降 法 ， 它 所 要 优化 的 目标 函数 是 非常 复杂 的 ， 因 此 ， 必 人 然 会 出 现 “ 锯 齿 形 现象 ”"， 这 
使 得 算法 低 效 ; 又 由 于 优化 的 目标 函数 很 复杂 ， 它 必然 会 在 神经 元 输出 接近 0 或 1 
的 情况 下 ， 出 现 一 些 平坦 区 ， 在 这 些 区 域内 ， 权 值 误差 改变 很 小 ， 使 训练 过 程 几乎 
停顿 ;传统 神经 网 络 模型 中 ， 不 能 使 用 传统 的 一 维 搜索 法 求 每 次 迭代 的 步 长 ， 而 必 
须 把 步 长 的 更 新 规则 预先 赋予 网 络 ， 这 种 方法 也 会 引起 算法 低 效 。 
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2.3.4 过 拟 合 


一 般 情况 下 ， 训 练 能 力 差 时 ， 预 测 能 力也 差 ， 并且 一 定 程度 上 ， 随 训练 能 力 的 
提高 ， 预 测 能 力也 提高 。 但 这 种 趋势 有 一 个 极限 ， 当 达到 此 极限 时 ， 随 训练 能 力 的 
提高 ， 预 测 能 力 反而 下 降 ， 即 出 现 所 谓 “ 过 拟 合 ”现象 。 此 时 ， 网 络 学 习 了 过 多 的 
样本 细节 ， 而 不 能 反映 样本 内 含 的 规律 。 





2.4 DNN 应 用 技巧 


(1) Dropout 能 增加 成 功 概率 

随机 忽略 一 部 分 隐藏 层 神经 元 的 过 程 称 为 Dropout ( 见 图 2.9)。 更 为 正式 的 陈述 
是 : 对 于 每 个 隐藏 层 的 神经 元 ， 以 概率 p 随机 地 从 网 络 中 省 略 。 由 于 神经 元 是 随机 
选择 的 ， 因 此 将 为 每 个 训练 实例 选择 不 同 的 神经 元 组 合 。 
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图 2.9 DNN Dropout 策略 


这 个 想法 非常 简单 ， 并 在 每 层 建 立 弱 学 习 模 型 。 弱 学 习 模 型 本 身 具有 低 预 测 能 
力 ， 然 而 许多 弱 模 型 的 预测 可 以 被 加 权 并 组 合 以 产生 具有 更 强 预测 能 力 的 模型 。 
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事实 上 ，Dropout 非常 类 似 于 Bagging 的 机 需 学 习 技 术 背 后 的 想法 。Bagging 是 一 
种 模型 平均 方法 ， 其 中 多 数 表 决 是 从 训练 数据 的 Bootstred 样本 上 训练 的 分 类 器 中 取 
得 的 。 事 实 上 ， 可 以 将 Dropout 视 为 多 个 神经 网 络 模型 的 隐 式 Bagging。 因 此 ，Drop- 
out 可 以 被 认为 是 在 大 量 不 同 神经 网 络 上 执行 模型 平均 有 效 的 方式 。 

DNN 的 能 力主 要 来 自 于 每 个 神经 元 ， 这 些 神经 元 在 DNN 中 作为 独立 的 特征 检测 
器 。 然 而 ， 在 应 用 中 ， 要 解决 的 另 一 个 问题 是 共 线 性 问题 ， 即 两 个 或 多 个 变量 高 度 
相关 。 这 意味 着 变量 包含 类 似 的 信息 ; 特别 地 ， 其 中 一 个 变量 可 以 从 其 他 具有 非常 
小 误差 的 变量 线性 地 预测 。 实 质 上 ， 一 个 或 多 个 变量 在 统计 上 是 宛 余 的 。 共 线性 问 
题 可 以 通过 从 模型 中 Dropout 一 个 或 多 个 变量 来 解决 。 
通过 在 训练 的 前 馈 阶 段 Dropout 神经 元 的 激活 来 阻止 隐藏 层 神经 元 的 共 线性 。 
Dropout 也 可 以 应 用 于 输入 层 , 在 这 种 情况 下 ， 算 法 将 随机 忽略 某 些 输入 。 

经 验 告诉 我 们 ，Dropout 并 不 一 定 会 影响 未 来 的 表现 ， 但 也 不 能 绝对 地 保证 能 提 
能 ， 值 得 一 试 。 在 开发 DNN 模型 时 ， 需 记 住 以 下 三 点 ， 

1) 通过 创建 多 个 路 径 以 在 整个 DNN 中 实现 校正 分 类 。 

2) Dropout 越 多 ， 训 练 期 间 引 入 的 噪声 越 多 ; 这 降低 了 学 习 速度 。 

3) 在 非常 大 的 DNN 模型 上 ，Dropout 似乎 能 展现 最 大 的 好 处 。 

(2) 从 反 向 传播 算法 中 受益 

正 向 传播 计算 DNN 的 所 有 层 的 每 个 结 点 的 权重 。 反 向 传播 是 计算 所 有 训练 样本 
的 误差 .并且 调 整 权重 。 

分 块 反 向 传播 是 加 速 神经 网 络 计算 的 一 种 常用 方法 。 它 涉及 同时 计算 多 个 
训练 样本 上 的 梯度 ， 而 不 是 在 原始 随机 梯度 下 降 算 法 中 发 生 的 针对 单独 样本 的 
计算 。 

注意 ， 块 尺度 越 大 ， 运 行 模型 所 需 的 内 存 越 多 。 为 了 了 解 分 块 反 向 传播 计算 效 
率 ， 假 设 有 一 大 小 为 500 的 数据 ， 同 时 有 1000 个 训练 样本 。 它 只 需要 2 次 迭代 来 完 
成 1 个 结 点 的 计算 。 

一 个 常见 的 问题 是 ， 什 么 时 候 应 该 使 用 分 块 技术 ? 答案 取决 于 建立 的 DNN 规 
模 。 模 型 中 的 神经 元 越 多 ,分 块 反 向 传播 的 潜在 益处 越 大 。 

男 一 个 常见 的 问题 是 块 的 最 佳 规模 。 在 选择 最 佳 块 尺寸 方面 需要 一 定 的 经 验 。 
经 验 告 诉 我 们 ,最 好 的 建议 是 尝试 不 同 的 值 ， 以 了 解 哪些 对 样本 和 DNN 架构 
有 效 。 
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(3) 早期 停止 的 简单 计划 

如 果 能 更 容易 提取 测试 样本 可 接受 的 性 能 ， 则 应 该 提早 停止 DNN 训练 。 这 是 早 
期 停止 的 概念 ， 其 中 样本 被 分 成 三 组 : 训练 集 、 验 证 集 和 测试 集 。 

训练 集 用 于 训练 DNN， 训 练 误 差 通 常 是 单调 函数 ， 每 次 迭代 都 会 减 小 ,图 2. 10 
说 明了 这 种 情况 ， 在 前 100 次 迭代 期 间 ， 误 差 迅 速 下 降 ， 然 后 在 接 下 来 的 300 次 迭 
代 中 下 降 速 率 更 慢 ， 随 后 变 为 恒定 值 。 
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图 2.10 ”网络 的 迭代 误差 





验证 集 用 于 评估 模型 的 性 能 。 验 证 误差 通常 在 早期 阶段 急剧 下 降 ， 同 时 网 络 
快速 学 习 出 函数 形式 ,但 随后 误差 增加 ， 这 表明 模型 开始 过 拟 合 

当 验 证 集 上 误差 最 低 时 停止 训练 ， 然后 在 测试 样本 上 使 用 验证 模型 对 于 减 
少 过 拟 合 是 非常 有 效 的 。 











2.5 单 响应 变量 DNN 的 R 实现 


【 例 2.2】 利 用 neuralnet 包 预 测 波 士 顿 郊区 房价 。 
(1) 加 载 需 要 使 用 的 包 


> library (neuralnet ) 
> library (Metrics ) 
> library( dplyr) 


> library( plyr) 











数据 集 为 MASS 包 中 波士顿 居民 对 空气 质量 改善 付款 意愿 调查 。 
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> data( "Boston" ,package =" MASS") 
> data <— Boston 
R 对 象 Boston 包含 506 行 和 14 列 ， 每 列 对 应 一 个 特定 的 变量 。 表 2.1 给 出 Bos- 
ton 数据 集 每 个 变量 的 细节 。 
表 2.1 Boston 数据 集 

































































crim 城镇 人 均 犯 罪 率 
indus 城镇 每 英亩 非 零售 商 占 比 
nox 氮 氧 化 物 浓度 
Im 平均 居住 的 房间 数量 
age 1940 年 之 前 建成 的 私有 建筑 比例 
dis 到 达 波 士 顿 就 业 中 心平 均 距 离 
tax 有 价 财产 税 税率 
ptration 城镇 小 学 教师 比例 
lstat 氏 学 历 人 口 数 (百分比 ) 
medv 有 房屋 数 
> keeps <— c("crim","indus","nox","rm","age"," dis"," tax" ," ptratio" ," lstat", 
"medv" ) # 保 留 变量 
> data <— data[ keeps ] # 根 据 保留 变量 生成 数据 集 


R 对 象 data 现在 只 包含 接 下 来 要 使 用 的 变量 ， 响 应 变量 为 mdev。 接 下 来 ， 使 用 
apply 方法 来 快速 查看 一 下 保留 的 数据 中 是 否 有 缺失 值 。 


> apply(data,2 ,function(x) sum(is. na(x) ) ) 





crim indus nox rm age ds taxptratio lstat medv 
0 0 0 0 0 0 0 0 0 0 
可 以 看 出 ， 没 有 缺失 值 ! 
执行 代码 : 


>par(mfrow =c(3,3) ) 
>for(iin 1:9)| 
> plot(datal ,i] ,data[ ,10|]) 


= 





显示 啊 应 变量 medv 和 输入 变量 之 间 的 关系 ， 如 图 2. 11 所 示 。 











43 





data[.10] 
data[.10] 





















40 60 80 10. FS 22 全 25 
data[,1] data[,[] 

EE o oo0 GT 
Do 0 5 人 8 

Pow ,00 中 5”o8 与: 

o 0 一 

人 jie wo 8 130 
邮 a 由 号 


20 











data[.10] 





medv 将 针对 剩余 的 九 个 


44 
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datal[,I] datal,[] 


图 2.11 medv 和 输入 变量 的 关系 


使 用 506 行 数据 样本 中 的 400 个 作为 训练 样本 : 





> set. seed (2016) 
# 统 计数 据 行 娄 
# 数 据 集中 随机 取 400 个 样本 作为 训练 集 


> n=nrow( data) 





> train <— sample (1:n,400,FALSE) 


注意 ，R 对 象 train 包含 了 训练 样本 中 数据 行 的 位 置 (下 标 )。 它 不 包含 实际 观 
据 。 
(2) 建 模 


7 


使 用 neuralnet 包 的 函数 构建 DNN， 公 式 存 储 在 名 为 f 的 R 对 象 中 。 响 应 变量 
属性 “回归 ”。 

















err. fct="sse ",， 
































# 平 方 误差 的 总 和 (误差 评估 策略 ) 


> f<—~medv ~ crim+indus +nox +rm+age+dis+tax+ptratio + lstat # 存 储 公 式 
DNN 可 以 使 用 神经 网 络 函 数 进 行 拟 合 。 实 现 如 下 : 
> fit <— neuralnet (f, # 模 型 公式 
data = datal train, | ， # 使 用 的 数据 集 
hidden = c(10,12,20), # 隐 藏 层 数 和 每 层 结 点 数 
algorithm = "rprop + "， # 使 用 的 学 习 算 法 (具有 回溯 的 弹性 反 向 传播 算法 ) 


act fct = " logistic" ， # 激 活 函 数 
threshold =0. 1 ， # 国 值 
linear output = TRUE) # 输 出 神经 元 使 用 的 激活 函数 (线性 ) 
注 : 如 果 想 使 用 传统 的 反 向 传播 ， 可 以 设置 algorithm =“backprop”。 如 果 使 用 这 
个 选项 ， 还 需要 指定 学 习 率 ( 即 learningrate =0.01)。 
(3) 预测 
DNN 预测 可 以 直接 使 用 神经 网 络 包 提供 的 compute 函数 ， 唯 一 需要 做 的 事情 就 
是 将 它 包 含 的 DNN 模型 与 测试 数据 传递 过 去 ， 实 施 方法 如 下 : 






































> pred <— compute (fit,datal -train,1:9]) 








注意 ，-train 是 返回 训练 样本 以 外 的 行 号 。 图 2. 12 显示 了 线性 回归 〈 实 线 ) 的 
拟 合 值 和 预测 值 。 虽 然 有 一 些 离 群 值 ， 但 是 该 预测 模型 看 起 来 相当 好 。 这 里 可 以 通 
过 性 能 标准 来 验证 。 接 下 来 以 计算 平方 相关 系数 、 均 方 误差 (mse) 和 均 方 根 误差 
(rmse) 为 例 进行 说 明 : 
> round( cor( pred $net. result,datal — train,10])’2,6) 
[1,] 0.809458 # 因 为 平方 相关 系数 小 于 0.9, 所 以 模型 还 有 待 提 


>mse (data [ -train,10] ,pred $net . result) 




















也 





[1] 0.2607601849 
>rmse (data [ -train,10] ,pred $net . result) 


[1] 0.5106468299 


预测 值 











图 2.12 预测 值 和 拟 合 值 
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2.6 多 响应 变量 DNN 的 R 实现 


图 像 处理 中 ， 在 单个 DNN 中 通常 要 建立 多 个 响应 变量 (像素 ) 。 然 而 ， 在 数据 
科学 领域 ，DNN 模型 通常 只 包含 一 个 响应 变量 。 

在 同一 组 属性 上 建立 多 个 响应 变量 联合 模型 的 关键 统计 学 原理 是 ， 它 可 以 在 回 
归 类 型 模型 中 取得 更 有 效 的 参数 估计 。 简 而 言 之 ， 更 有 效 的 估计 会 得 到 更 快 的 决策 ， 
因为 这 时 在 统计 推断 方面 将 会 有 更 大 的 信心 。 可 以 想到 多 个 涵盖 商业 、 工 业 和 研究 
的 应 用 实例 ， 其 中 在 同一 组 属性 上 建立 多 个 响应 变量 的 模型 是 有 用 的 。 

【 例 2.3】 使 用 TH. data 包 中 的 数据 bodyfat 来 构建 DNN。 

该 数据 最 初 由 Garcia 等 人 收集 ， 以 通过 测量 皮肤 厚度 、 周 长 以 及 男性 和 女性 的 
骨 宽 度 来 开发 用 于 体 脂 预测 的 可 靠 的 回归 方程 。 最 初 的 研究 收集 了 117 名 健康 德国 
受 试 者 的 数据 ， 其 中 有 46 名 男性 和 71 名 女性 。 体 脂 数据 包含 71 个 女性 的 10 个 变量 
的 数据 ， 见 表 2. 2。 





























表 2.2 bodyfat 数据 集 












































变量 名 描述 
DEXfat 虽 肪 
age 年 龄 
waistcirc 芽 转 
hipcire 臂 围 
elbowbreadth 肘 宽 
kneebreadth 膝 宽 
anthro3a 统计 学 习 理 论 
anthro3b 统计 学 习 理 论 
anthro3c 统计 学 习 理 论 
anthro4 统计 学 习 理 论 





(1) 加 载 使 用 的 包 和 数据 


> library (neuralnet) 
> require ( Metrics) 
> data( " bodyfat" ,package = " TH. data " ) 
(2) 数据 准备 
由 于 处 理 的 是 一 个 相当 小 的 数据 集 ， 只 有 71 个 观测 值 ， 所 以 使 用 60 个 观测 值 
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作为 训练 样本 。 


> set. seed (2016 ) 
>train <— sample (1:71,60,FALSE) # 构 造 训 练 集 


下 一 步 ， 标 准 化 观察 值 ， 用 于 构建 DNN 的 公式 存储 在 R 对 象 f 中 . 


> scale_bodyfat <—as. data. frame( scale( log( bodyfat) ) ) 
>f<— waistcirc + hipcire ~ DEXfat + age + elbowbreadth + kneebreadth + anthro3a + anthro3b 


+ anthro3c + anthro4 





eal 





注意 使 用 waisteire + hipeire ~ 来 表示 两 个 响应 变量 。 通 常 ， 对 于 上 个 响应 变量 
1 ,| ， 使 用 r+r, +…+m ~ 来 表示 。 

(3) 建 模 

使 用 两 个 隐藏 层 的 模型 来 拟 合 ， 其 中 第 一 个 隐藏 层 有 8 个 神经 元 ， 第 二 个 隐藏 
层 有 4 个 神经 元 。 其 余 参 数 与 已 经 讨论 过 的 类 似 ; 








>it <— neuralnet (f, 
data = scale_bodyfat[ train, ] ， 
hidden = c(8,4), 
threshold =0. 1] ， 
err. fct = "sse" ， 
algorithm = "rprop +" 
act fct = " logistie" ， 
linear. output = FALSE 
) 





该 模型 只 需要 45 步 就 会 收敛 ， 其 平方 误差 的 总 和 等 于 25. 18。 

然后 ， 复 制 scale_bodyfat 中 的 数据 ， 并 将 赋值 给 without_fat， 这 样 在 scale_body- 
fat 中 保留 一 份 原始 值 ， 稍 后 将 会 使 用 到 它 。 注 意 ， 此 时 也 需要 使 用 NULL 参数 从 这 
个 新 的 R 对 象 中 删除 响应 变量 ; 











> without_fat <— scale_bodyfat 
> without_fat$waistcirc <— NULL 


> without_fat $hipcire <— NULL 


(4) 模型 部 署 
现在 把 模型 应 用 在 测试 样本 上 。 第 二 行 打印 出 预测 值 ( 仅 显示 前 几 个 值 ): 
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>pred <— compute (fit,without fat | -train, |] ) 
> pred $net. result 
[ ,1] [ ,2] 
48 0.8324509945946 0.7117765670627 
53 0.1464097674972 0.0389520756586 
58 0.7197107887754 0.6215091479349 
62 0.8886019185711 0.8420724129305 


至 此 ， 具 有 两 个 响应 变量 的 DNN 已 成 功 构建 。 
(5) 模型 评估 

为 了 与 线性 回归 模型 做 比较 ， 需 要 建立 两 个 模型 。 
模型 1 : 





>fw <— waistcirc ~ DEXfat + age +elbowbreadth + kneebreadth + anthro3a + 
anthro3b + anthro3c + anthro4 


> 也 <-hipcirc ~ DEXfat + age + elbowbreadth + kneebreadth + anthro3a + anthro3b + 





anthro3c + anthro4 
现在 使 用 训练 数据 运行 每 个 模型 ; 


>regw <—linReg <-lm(fw,data = scale_bodyfat | train, | ) 


>regh <-linReg <—lm(fh,data= scale_bodyfat | train, | ) 
使 用 测试 样本 预测 : 
> predw <— predict (regw,without_fat | -train, ] ) 


> predh <— predict (regh,without fat | -train, ] ) 


DNN 模型 与 线性 回归 模型 相 比较 ，DNN 模型 响应 变量 的 均 方差 统计 量 可 以 如 下 
计算 ， 





> mse(scale_bodyfat [ -train,10 ] ,pred $net. result [ ,1]) 


[1] 0. 5376666652 
Galton 回归 模型 均 方差 . 


> mse( scale_ bodyfat | -train,10] ,predw) 


[1] 0.3670629158 
Galton 的 腰围 的 线性 回归 模型 优 于 深度 学 习 模 型 。 


避 部 尺寸 模型 性 能 怎么 样 呢 ?以 下 是 DNN 的 均 方 差 度量 : 
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n 





四 | 





> mse(scale_bodyfat [ -train,10] ,pred $net . result [ ,2] ) 
[1] 0.5530302859 


Galton 的 辟 部 尺寸 回归 模型 的 均 方 差 度 量 . 


> mse( scale_bodyfat [ — train,10 |] ,predh) 
0. 5229634116 


此 时 ， 两 者 速度 较为 接近 ， 但 线性 回归 模型 仍然 有 较 小 的 均 方 误差 ， 性 能 略微 
优 于 DNN 模型 1。 

模型 2. 

当然 ， 在 实践 中 ， 要 使 用 不 同 的 学 习 算法 、 不 同 的 神经 元 数量 来 建立 多 种 模型 ; 
线性 回归 模型 结果 仅 作为 一 个 有 用 的 基准 。 为 了 说 明 这 一 点 ， 使 用 deepnet 包 建 立 传 
统 反 向 传播 算法 DNN。 

首先 ， 将 属性 变量 赋值 R 对 象 X 中 ， 并 将 响应 变量 赋值 R 对 象 了 中 : 


nr 






































> set. seed (2016) 











>X=as. matrix (without _fat [train, | ) # 构 造 属性 变量 
> Y=as. matrix (scale_bodyfat [train,3:4|]) # 构 造 响应 变量 


具有 2 个 隐 层 的 DNN 模型 如 下 : 


>fitB <—nn. train (x=X,y=Y, 
initW = NULL, 

initB = NULL, 

hidden =c(8,4) ， 


1 IN 


activationfun =" sigm ",， 
learningrate = 0. 02 ， 
momentum = 0. 74 ， 
learningrate_scale =1,， 
output =" linear "， 
numepochs = 970,， 
batchsize = 60 ， 
hidden_dropout =0， 


visible_ dropout =0) 
使 用 测试 样本 得 到 预测 值 ， 并 存储 在 R 对 象 predB 中 : 


> Xtest <— as. matrix (without _fat[ -train, | ) 


>predB <— nn. predict (fitB,Xtest) 
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腰围 和 辟 围 的 均 方 误差 计算 过 程 如 下 : 
> mse (scale_bodyfat [ -train,10] ,predB| ,1]) 
[1] 0.1443659185 





> msel scale_bodyfat [ -train,10] ,predB[ ,21) 
[1] 0.1409938484 


依据 均 方 误差 ，DNN 模型 2 优 于 线性 回归 模型 。 

注 : 任何 一 种 方法 的 优 劣 都 不 是 绝对 的 ， 应 该 选择 一 种 符合 问题 性 质 的 方法 。 

腰围 和 臂 围 作为 响应 变量 ,可视化 如 图 2. 13 所 示 。 属 性 的 可 视 化 如 图 2. 14 
所 示 。 










































































腰围 核 密度 恬 围 核 密度 
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图 2.13 响应 变量 分 布 氏 
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elbow knee anthro3a anthro3b anthro3c anthro4 


图 2. 14 DNN bodyfat 属性 
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DEXfat 变 量 箱 线 图 





60 Ne 
50 | 
40 | 
1 一 一 三 
20 1 
10 ee 
DEXfat 





图 2.14 DNN bodyfat 属性 ( 续 ) 





2.7 学 习 指南 








值得 注意 的 是 ,虽然 DNN 对 特征 工程 的 要 求 相 对 较 低 ， 但 训练 时 间 复 杂 度 较 
大 ， 且 权重 可 解释 性 非常 差 ， 不 易 调 试 。 因 此 ， 对 于 一 个 新 的 应 用 ， 比 较 好 的 方法 
是 先 用 Logistic Regression 线性 模型 ， 等 迭代 成 熟 了 ， 再 尝试 DNN 模型 。 
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第 3 章 卷 积 神 经 网 络 CNN 


3.1 CNN 原理 





卷 积 神经 网 络 是 近年 发 展 起 来 ， 并 引起 广泛 重视 的 一 种 高 效 识别 方法 。20 世 
纪 60 年 代 ，Hubel 和 Wiesel 在 研究 大 脑 皮 层 中 用 于 局 部 敏感 和 方向 选择 的 神经 元 
时 发 现 其 独特 的 网 络 结构 可 以 有 效 地 降低 反馈 神经 网 络 的 复杂 性 ， 继 而 提出 了 卷 
积 神经 网 络 ( Convolutional Neural Networks，CNN ) 。 现 在 ，CNN 已 经 成 为 众多 科学 




















期 预 处 理 ， 可 以 直接 输入 原始 图 像 ， 因 而 得 到 了 更 为 广泛 的 应 用 。K. Fukushima 在 
1980 年 提出 的 新 识别 机 是 卷 积 神经 网 络 的 第 一 个 实现 网 络 。 随 后 ， 更 多 的 科研 工 
作者 对 该 网 络 进行 了 改进 。 其 中 ， 具 有 代表 性 的 研究 成 果 是 Alexander 和 Taylor 提 
出 的 “改进 认 知 机 ”， 该 方法 综合 了 各 种 改进 方法 的 优点 并 避免 了 耗 时 的 误差 反 向 
传播 。 

一 般 地 ，CNN 的 基本 结构 包括 两 层 : 其 一 为 特征 提取 层 ， 每 个 神经 元 的 输 
入 与 前 一 层 的 局 部 接受 域 相连 (局 部 感知 )， 并 提取 该 局 部 接受 域 的 特征 ; 其 二 
是 特征 映射 层 ， 网 络 的 每 个 计算 层 由 多 个 特征 映射 组 成 ， 每 个 特征 映射 是 一 个 
平面 ,平面 上 所 有 神经 元 的 权 值 相等 ( 权 值 共享 )。 特 征 映射 结构 采用 Sigmoid 
函数 作为 卷 积 网 络 的 激活 函数 ， 使 得 特征 映射 具有 位 移 不 变性 。 此 外 ， 由 于 一 
个 映射 面 上 的 神经 元 共享 权 值 ， 因 而 减少 了 网 络 自由 参数 的 个 数 。 卷 积 神经 网 
络 中 的 每 一 个 卷 积 层 都 紧 跟 着 一 个 用 来 求 局 部 平均 与 二 次 特征 提取 的 计算 层 ， 
这 种 特有 的 二 次 特征 提取 结构 减 小 了 特征 分 辩 率 。 

CNN 主要 用 来 识别 位 移 、 缩 放 及 其 他 形式 扭曲 不 变性 的 二 维 图 形 。 由 于 CNN 的 
村 征 检测 层 通过 训练 数据 进行 学 习 ， 所 以 在 使 用 CNN 时 ， 避 免 了 显示 的 特征 抽取 ， 
而 隐 式 地 从 训练 数据 中 进行 学 习 ; 再 者 ， 由 于 同一 特征 映射 面 上 的 神经 元 权 值 相同 ， 
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所 以 网 络 可 以 并 行 学 习 ， 这 也 是 卷 积 网 络 相 对 于 神经 元 彼此 相连 网 络 的 一 大 优势 。 
卷 积 神经 网 络 以 其 局 部 权 值 共享 的 特殊 结构 在 语音 识别 和 图 像 处 理 方 面 有 着 独特 的 
优越 性 ， 其 布局 更 接近 于 实际 的 生物 神经 网 络 ， 权 值 共享 降低 了 网 络 的 复杂 性 ， 特 
别 是 多 维 输入 向 量 的 图 像 可 以 直接 输入 网 络 这 一 特点 避免 了 特征 提取 和 分 类 过 程 中 
数据 重建 的 复杂 度 。 

在 图 像 处 理 中 ， 往 往 把 图 像 表 示 为 像素 的 向 量 ， 比 如 一 个 1000 x 1000 的 图 像 ， 
可 以 表示 为 一 个 1 000 000 的 向 量 。 在 图 1.4 中 提 到 的 神经 网 络 中 ， 如 果 隐 藏 层 数目 
与 输入 层 一 样 ， 也 是 1 000 000 个 神经 元 ， 那 么 输入 层 到 隐藏 层 的 参数 数据 为 1 000 
000 x1000 000 =10”， 这 样 就 太 多 了 ， 基 本 无 法 训练 。 所 以 图 像 处 理 要 想 训练 成 神 
经 网 络 ， 必 先 减 少 参 数 加 快速 度 。 








3.1.1 局 部 感知 


卷 积 神经 网 络 有 两 种 方法 可 以 降低 参数 数目 ， 第 一 种 方法 叫 作 局 部 感知 。 一 般 
认为 ， 人 对 外 界 的 认 知 是 从 局 部 到 全 局 的 ， 而 图 像 的 空间 联系 也 是 局 部 的 像素 联系 
较为 紧密 ， 而 距离 较 远 的 像素 相关 性 则 较 弱 。 因 而 ， 每 个 神经 元 其 实 没 有 必要 对 全 
局 图 像 进行 感知 ， 只 需要 对 局 部 进行 感知 ， 然 后 在 更 高 层 将 局 部 的 信息 综合 起 来 就 
得 到 了 全 局 的 信息 。 网 络 部 分 连通 的 思想 ， 也 是 受 启发 于 生物 学 里 面 的 视觉 系统 结 
构 。 视 觉 皮 层 的 神经 元 就 是 局 部 接受 信息 的 〈 即 这 些 神 经 元 只 响应 某 些 特定 区 域 的 
刺激 ) 。 如 图 3.1 所 示 ， 图 3. 1a 为 全 连接 ， 图 3. 1b 为 局 部 连接 。 

















全 连接 神经 网 络 局 部 连接 神经 网 络 


如 : 1000X1000 图 像 
1M 人 隐藏 单 元 
电 102 个 参数 












如 : 1000X1000 图 像 
1M 人 隐藏 单元 
滤波 器 大 小 : 10X10 
参数 个 数 : 1M 


图 3.1 CNN 结构 


在 图 3. 1b 中 ,假如 每 个 神经 元 只 和 10 x 10 个 像素 值 相连 ,那么 权 值 数据 为 


1 000 000 x 100 个 参数 ， 减 少 为 原来 的 千 分 之 一 。 而 那 10 x 10 个 像素 值 对 应 的 10 x 10 
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个 参数 ， 其 实 就 相当 于 卷 积 操作 。 


3.1.2 权 值 共享 





通过 局 部 感知 后 参数 仍然 过 多 ， 那么 就 可 以 采用 第 二 种 方法 ， 即 权 值 共享 。 
在 上 面 的 局 部 连接 中 ， 每 个 神经 元 都 对 应 100 个 参数 ， 一 共 1 000 000 个 神经 
元 ， 如 果 这 1 000 000 个 神经 元 的 100 个 参数 都 是 相等 的 ， 那 么 参数 数目 就 变 为 
100 了 。 

怎么 理解 权 值 共享 呢 ? 可 以 把 这 100 个 参数 (也 就 是 卷 积 操 作 ) 看 成 是 提 
取 特 征 的 方式 ， 该 方式 与 位 置 无 关 。 这 其 中 隐藏 的 原理 是 : 图 像 的 一 部 分 的 统 
计 特 性 与 其 他 部 分 是 一 样 的 。 这 也 意味 着 在 这 一 部 分 学 习 的 特征 也 能 用 在 另 一 
部 分 上 ， 所 以 对 于 这 个 图 像 上 的 所 有 位 置 ， 都 能 使 用 同样 的 学 习 特 征 。 

更 直观 一 些 ， 当 从 一 个 大 尺寸 图 像 中 随机 选取 一 小 块 ， 比 如 8 x8 作为 样本 ， 并 
且 从 这 个 小 块 样本 中 学 习 到 了 一 些 特征 ， 这 时 可 以 把 从 这 个 8 x8 样本 中 学 习 到 的 特 
征 作为 探测 器 ， 应 用 到 这 个 图 像 的 任意 地 方 中 去 。 特 别 是 ， 可 以 用 从 8 x8 样本 中 所 
学 习 到 的 特征 与 原本 的 大 尺寸 图 像 作 卷 积 ， 从 而 对 这 个 大 尺寸 图 像 上 的 任 一 位 置 获 
得 一 个 不 同 特征 的 激活 值 。 

如 图 3.2 所 示 ， 展 示 了 一 个 3 x3 的 卷 积 核 在 5 x5 的 图 像 上 做 卷 积 的 过 程 。 每 个 
卷 积 都 是 一 种 特征 提取 方式 ， 就 像 一 个 第 子 ， 将 图 像 中 符合 条 件 (激活 值 越 大 越 符 
合 条 件 ) 的 部 分 筛选 出 来 。 



















































































图 3.2 卷 积 运算 过 程 


3.1.3 多 卷 积 核 


























当 只 有 100 个 参数 时 ， 如 果 只 用 1 个 100 x100 的 卷 积 核 ， 显 然 ， 特 征 提取 是 不 
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充分 的 ， 这 时 可 以 添加 多 个 卷 积 核 ， 比 如 32 个 卷 积 核 ， 可 以 学 习 32 种 特征 。 有 多 
个 卷 积 核 时 的 情形 如 图 3.3 所 示 。 





局 部 连接 神经 网 络 














不 同 区 域 其 统 


Wd 
() 


如 : 1000X1000 图 像 
台 1M 人 隐藏 单 元 
滤波 器 大 小 : 10X10 
参数 个 数 : 100M 























如 : 1000X1000 图 像 
100 个 滤波 器 
滤波 器 大 小 : 10X10 
参数 个 数 : 10K 











图 3.3 多 卷 积 核 示 意图 








图 3. 3b 中 不 同 灰 度 表明 不 同 的 卷 积 核 。 每 个 卷 积 核 都 会 将 图 像 生成 为 另 一 幅 图 
像 。 比 如 两 个 卷 积 核 就 可 以 生成 两 幅 图 像 ， 这 两 幅 图 像 可 以 看 作 是 一 张 图 像 的 不 同 
的 通道 ， 如 图 3.4 所 示 。 

图 3.4 展示 了 在 四 个 通道 上 的 卷 积 操作 ， 有 两 个 卷 积 核 ， 生 成 两 个 通道 。 其 
中 需要 注意 的 是 ， 四 个 通道 上 每 个 通道 对 应 一 个 卷 积 核 ， 先 将 W' 忽略 ， 只 看 WV， 
那么 在 本 的 某 位 置 (i,7) 处 的 值 ， 是 由 四 个 通道 上 (i,j) 处 的 卷 积 结 果 相 加 然后 再 取 
激活 函数 值得 到 的 。 





hs =tanh( (W’ * x) ;+b,) 
所 以 ,在 图 3.4 由 4 个 通道 卷 积 得 到 2 个 通道 的 过 程 中 ， 参 数 的 数目 为 4 x2 x2 
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图 3.4 ”在 四 个 通道 上 的 卷 积 操 作 





x2 个 ， 其 中 4 表示 4 个 通道 , 第 一 个 2 表示 生成 2 个 通道 ， 最 后 的 2 x2 表示 卷 积 
核 大 小 。 


3.1.4 池 化 


在 通过 卷 积 获得 了 特征 之 后 ， 下 一 步 希望 利用 这 些 特征 去 做 分 类 。 理 论 上 讲 ， 
人 们 可 以 用 所 有 提取 得 到 的 特征 去 训练 分 类 器 ， 例 如 Softmax 分 类 器 ， 但 这 样 做 面临 
计算 量 的 挑战 。 例 如 ， 对 于 一 个 96 x 96 像素 的 图 像 ， 假 设 已 经 学 习 得 到 了 400 个 定 
义 在 8 x8 输入 上 的 特征 ， 每 一 个 特征 和 图 像 卷 积 都 会 得 到 一 个 (96 -8 +1) x(96 - 
8 +1) =7921 维 的 卷 积 特征 ， 由 于 有 400 个 特征 ， 所 以 每 个 样 例 都 会 得 到 一 个 7921 x 
400 =3 168 400 维 的 卷 积 特征 向 量 。 学 习 一 个 拥有 超过 300 万 特征 输入 的 分 类 需 十 分 
不 便 ， 并 且 容 易 出 现 过 拟 合 。 

为 了 解决 这 个 问题 ， 首 先 回 忆 一 下 ， 之 所 以 决定 使 用 卷 积 后 的 特征 是 因为 图 
像 具 有 一 种 “静态 性 ”的 属性 ， 这 也 就 意味 着 在 一 个 图 像 区 域 有 用 的 特征 极 有 可 
能 在 另 一 个 区 域 同样 适用 。 因 此 ， 为 了 描述 大 的 图 像 ， 一 个 很 自然 的 想法 就 是 对 
不 同位 置 的 特征 进行 聚合 统计 ， 例如， 人 们 可 以 计算 图 像 一 个 区 域 上 的 某 个 特定 
特征 的 平均 值 (或 最 大 值 )。 这 些 概 要 统计 特征 不 仅 具 有 低 得 多 的 维度 ( 相 比 使 用 
所 有 提取 得 到 的 特征 ) ， 而 且 还 会 改善 结果 (不 容易 过 拟 合 ) 。 这 种 聚合 的 操作 就 
叫 作 池 化 (Pooling) ， 有 时 也 称 为 平均 池 化 或 者 最 大 池 化 (取决 于 计算 池 化 的 方 
法 )， 如 图 3.5 所 示 。 
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四 


卷 积 特征 池 化 特征 

















3.5” 池 化 特征 示意 图 


3.2 多 层 卷 积 


在 实际 应 用 中 ， 往 往 使 用 多 层 卷 积 ， 然 后 再 使 用 全 连接 层 进行 训练 。 使 用 多 
层 卷 积 的 原因 是 因为 一 层 卷 积 学 到 的 特征 往往 是 局 部 的 ， 层 数 越 高 ， 学 到 的 特征 
就 越 全 局 化 。 

















3.2.1 ImageNet -2010 网 络 结构 


ImageNet LSVRC 是 一 个 图 片 分 类 的 比赛 ， 其 训练 集 包 括 127 万 多 张 图 片 ， 验 证 
集 有 5 万 张 图 片 ， 测 试 集 有 15 万 张 图 片 。 本 节 截 取 2010 年 Alex Krizhevsky 的 CNN 
结构 进行 说 明 ， 该 结构 在 2010 年 取得 冠军 ，top -5 错误 率 为 13.3% 。 值 得 一 提 的 
是 ,在 2016 年 的 ImageNet LSVRC 比赛 中 ， 取 得 冠军 的 GoogNet 已 经 达到 了 top -5 错 
误 率 6. 67% 。 可 见 ， 深 度 学 习 的 提升 空间 还 很 巨大 。 

图 3.6 即 为 Alex 的 CNN 结构 图 。 需 要 注意 的 是 ， 该 模型 采用 了 2 个 GPU 并 行 
结构 ， 即 5 个 卷 积 层 都 是 将 模型 参数 分 为 2 部 分 进行 训练 的 。 
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图 3.6 Alex 的 CNN 结构 图 
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模型 的 基本 参数 如 下 : 

输入 层 : 224 x224 大 小 的 图 片 ，3 通道 。 

第 一 层 卷 积 : 5 x5 大 小 的 卷 积 核 96 个 ， 每 个 GPU 上 48 个 。 

第 一 层 Max - pooling: 2 x2 的 核 。 

第 二 层 卷 积 : 3 x3 卷 积 核 256 个 ， 每 个 GPU 上 128 个 。 

第 二 层 Max - pooling: 2 x2 的 核 。 

第 三 层 卷 积 . 与 上 一 层 是 全 连接 ，3 x3 的 卷 积 核 384 个 。 分 到 两 个 GPU 上 各 
192 个 。 

第 四 层 卷 积 : 3 x3 的 卷 积 核 384 个 ， 两 个 CPU 各 192 个 。 该 层 与 上 一 层 连 接 没 
有 经 过 pooling 层 。 

第 五 层 卷 积 : 3 x3 的 卷 积 核 256 个 ， 两 个 GPU 上 各 128 个 。 

第 五 层 Max - pooling: 2 x2 的 核 。 

全 连接 层 : 4096 维 ， 将 第 五 层 Max - pooling 的 输出 连接 成 一 个 一 维 向 量 ， 作 为 
该 层 的 输入 。 

全 连接 层 4096 维 。 

输出 层 (Softmax 层 ) : 1000 维 ， 每 一 维 是 图 片 属于 该 类 别 的 概率 。 


























3.2.2 ”DeepID 网 络 结构 





DeepID 网 络 结构 是 香港 中 文大 学 的 Sun Yi 开发 出 来 用 来 学 习 人 脸 特 征 的 卷 积 神 
经 网 络 。 每 张 输入 的 人 脸 被 表示 为 160 维 的 向 量 ， 学 习 到 的 向 量 经 过 其 他 模型 进行 
分 类 ,在 人 脸 验 证 试验 上 得 到 了 97.45% 的 正确 率 ， 更 进一步 地 ， 原 作者 改进 了 
CNN， 又 得 到 了 99. 15% 的 正确 率 。 

DeepID 网 络 结构 与 ImageNet 网 络 结构 的 参数 类 似 ， 所 以 ， 这 里 只 解释 一 下 
DeepID 与 ImageNet 的 区 别 。 

DeepID 网 络 结构 最 后 只 有 一 个 全 连接 层 ， 然 后 就 是 Softmax 层 了 。 在 全 连接 层 ， 
以 第 四 层 卷 积 和 第 三 层 Max - pooling 的 输出 作为 全 连接 层 的 输入 ， 这 样 可 以 学 习 到 
局 部 的 和 全 局 的 特征 。 














3.3 CNN 的 R 实现 


从 公开 的 材料 上 看 ， 目 前 还 没有 成 熟 的 CNN 包 ， 而 MATLAB 里 面 有 很 方便 的 
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conv2 ， 相 信 不 久 的 未 来 会 发 布 与 CNN 相应 的 R 包 ， 并 相信 R 语言 做 这 个 也 绝对 不 
可 能 会 比 MATLAB 弱 。 

从 CNN 原理 看 出 ， 学 习 过 程 中 需要 多 层 迭 代 ， 时 间 复 杂 度 极 高 ， 因 此 对 CNN 进 
行 了 优化 ， 优 化 后 CNN 称 为 极限 学 习 机 (一 种 单 层 神经 网 络 ) 。 

极限 学 习 机 有 以 下 优点 : 

1) 由 于 极限 学 习 机 求 取 权 值 的 时 候 只 是 计算 一 个 广义 逆 ， 因 此 训练 速度 比 基 于 
梯度 的 学 习 算 法 快 很 多 。 

2) 基于 梯度 的 学 习 算法 存在 很 多 问题 ， 比 如 学 习 速 率 难 以 确定 、 局 部 网 络 
最 小 化 等 ， 极 限 学 习 机 有 效 地 改善 了 此 类 问题 ， 在 分 类 过 程 中 取得 了 更 好 的 
效果 。 

3) 与 其 他 神经 网 络 算法 不 同 ,极限 学 习 机 在 训练 过 程 中 ， 选 择 激活 函数 过 程 中 
可 以 选择 不 可 微 函 数 。 

4) 极限 学 习 机 算法 训练 过 程 并 不 复杂 ， 只 需要 三 步 就 可 以 完成 整个 的 学 习 
过 程 。 


【 例 3.1】 通 过 极限 学 习 机 预测 。 









































> library ( elmNN) 

> set. seed( 1234) 

>Varl <—runif(50,0,100) 

> sqrt data <— data. frame( Varl ,Sqrt = sqrt( Varl ) ) 

> model <— elmtrain. formula( Sqrt ~ Varl ,data = sqrt data, nhid = 10 ， 
actfun = " sig" ) 

>new <— data. frame( Sqrt =0,Varl =runif(50,0,100)) 


>p <— predict( model,newdata = new) 


3.4 学 习 指 南 








“深度 学 习 ” 是 为 了 让 层 数 较 多 的 神经 网 络 可 以 有 效 训 练 ， 因 此 演化 出 一 系列 
新 的 结构 和 方法 。 在 新 的 网 络 结构 中 ， 最 著名 的 就 是 CNN， 它 解决 了 传统 较 深 的 网 
络 参数 太 多 ， 很 难 训练 的 问题 ， 使 用 了 “局 部 感知 ”和 “ 权 值 共享 ”的 概念 ， 大 大 
减少 了 网 络 参数 的 数量 。 关 键 是 这 种 结构 确实 很 符合 视觉 类 任务 在 人 脑 上 的 工作 
原理 。 
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新 的 结构 还 包括 DBN、LSTM 、ResNet 等 。 

新 的 方法 包括 : 新 的 激活 函数 (ReLU) ， 新 的 权重 初始 化 方法 ( 逐 层 初始 
化 、XAVIER 等 ) ， 新 的 损失 函数 ， 新 的 防止 过 拟 合 方法 (Dropout、BN 等 ) 。 这 
些 方面 主要 都 是 为 了 解决 传统 的 多 层 神经 网 络 的 某 些 不 足 : 梯度 弥散 、 过 拟 


合 等 。 
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第 4 章 递归 神经 网 络 RNN 


4.1 RNN 原理 


递归 神经 网 络 (Recurrent Neural Networks，RNN) 不 同 于 FNN (Feed - forward 
Neural Networks) 。RNN 神经 元 与 神经 元 之 间 相 互 连 接 ， 信 息 在 这 些 神经 元 之 间 构 成 
一 个 多 向 传输 的 循环 。 这 种 神经 网 络 具 有 时 间 特 性 ， 可 以 记忆 先前 神经 网 络 的 状态 。 
这 让 它 具 有 能 够 按 着 时 间 的 推移 不 断 学 习 ， 执 行 分 类 任务 ， 预 测 未 来 发 展 状态 的 功 
能 。 因 此 ，RNN 可 用 作 分 类 、 随 机 序列 建 模 和 与 记忆 有 关 的 任务 。 

RNN 的 一 种 简单 形式 如 图 4.1 所 示 。 在 FNN 的 隐藏 层 与 输出 层 之 间 加 入 了 一 个 
延迟 神经 元 (Delay) 。 延 迟 神经 元 有 着 存储 感知 的 能 力 ， 因 此 它 可 以 记忆 前 一 阶段 
的 活跃 值 ， 而 在 下 一 阶段 将 这 些 数值 回馈 给 网 络 。 














输入 层 


输出 层 





图 4.1 简单 RNN 结构 


RNN 在 多 层 传 感 顺 基础 上 增强 一 个 或 多 个 承接 层 〈Context) 之 间 的 联系 。 承 接 
层 之 间 的 神经 元 数量 和 隐藏 层 之 间 的 神经 元 数量 相等 。 另 外 ， 承 接 层 的 神经 元 和 隐 
藏 层 的 神经 元 是 完全 连接 在 一 起 的 。 














4.2 Elman 网 络 








Khatib 提出 的 Elman 网 络 是 为 了 预测 每 小 时 太阳 的 辐射 ， 如 图 4. 2 所 示 。 它 是 一 
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个 有 着 8 个 输入 特性 〈 经 度 、 纬 度 、 温 度 、 日 照度 、 湿 度 、 月 、 日 、 小 时 ) 的 三 层 
网 络 ， 五 个 隐藏 层 、 五 个 交互 神经 元 和 两 个 用 来 预测 全 球 太阳 辐射 和 漫 射 的 神经 元 。 












全 球 太阳 辐射 


太阳 漫 射 





图 4.2 预测 每 小 时 太阳 辐射 的 Elman 网 络 





4.2.1 承接 层 神 经 元 的 作用 


承接 层 神经 元 通过 存储 隐藏 层 神经 元 的 值 来 记忆 先前 网 络 的 内 部 状态 。 存 储 值 
将 延迟 一 个 结 点 时 间 并 且 在 下 一 个 结 点 时 间作 为 网 络 额 外 的 输出 。 





4.2.2 信息 流动 


通过 图 4.3 来 认识 Elman 网 络 模 型 。 假 设 有 一 个 由 两 个 神经 元 组 成 的 神经 网 络 ， 
在 网 络 的 每 一 层 只 有 一 个 神经 元 ， 每 个 神经 元 都 有 一 个 偏 置 ， 第 一 个 神经 元 的 偏 置 
为 51， 第 二 个 神经 元 的 偏 置 为 5,。 神 经 元 之 间 的 连接 权 值 重 分 别 是 w 和 w,， 并 且 作 
用 于 函数 和 所 。 由 于 只 有 两 个 神经 元 ， 输 出 站 和 输入 XX 的 函数 关系 式 如 下 : 

了 =f(wfi(wX + 0b)+0b,) 














图 4.3 两 个 神经 元 的 Elman 网 络 图 
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在 图 4.4 所 示 的 Elman 网 络 中 ， 隐 藏 层 有 一 个 神经 元 接收 来 自 某 神经 元 (比如 
x) 的 信号 并 反馈 到 神经 元 x 的 神经 元 Delay (图 4.4 中 的 神经 元 C) 。 从 神经 元 Delay 
传 出 的 信号 在 反馈 到 网 络 之 前 ， 会 经 过 一 个 时 间 点 的 延 时 与 w, 相 乘 。 时 间 + 输出 的 
函数 关系 式 如 下 : 











Y lt]=f(wfi(w Xlt] +w,Delay +b,) + 六 ) 
其 中 Delay=Y[t - 1]。 

在 训练 的 过 程 中 应 当 对 连接 权 值 和 偏差 进行 迭代 调整 ， 以 减少 网 络 的 错误 ， 通 
常情 况 下 应 慎重 使 用 均 方 误差 。 如 果 训 练 中 的 误差 偏 大 ， 则 应 该 使 用 为 一 种 迭代 方 
法 。 通 过 这 个 简单 的 例子 可 以 看 出 ， 隐 藏 层 和 输入 层 是 完全 连接 并 且 展 现 出 递归 的 
关系 。 














图 4.4 两 结 点 Elman 网 络 


Elman 神经 网 络 在 实际 应 用 中 非常 有 效 ， 主 要 是 用 来 预测 给 定 序列 的 输出 ， 具 有 
动态 特性 和 短 时 间 内 记忆 功能 。 


4. 2.3 Elman 网 络 应 用 


从 故障 预测 、 天 气 预测 到 股市 预测 ， 都 可 以 看 到 RNN 的 应 用 。 

(1) 天 气 预测 模型 

各 行 各 业 对 准确 的 天 气 预测 都 有 浓厚 的 兴趣 。 农 民 依 据 天 气 状况 来 进行 农作物 
的 种 植 和 收割 ; 运输 部 门 依据 气象 信息 ， 来 决定 是 否 关 闭 或 者 打开 特定 的 运输 通道 ; 
个 人 关注 天 气 情况 是 为 了 确定 他 们 的 日 常 活动 能 否 正常 进行 。 

Maqsood 、Khan 和 AbRaham 共同 开发 的 Elman 神经 网 络 用 来 预测 温哥华 、 英 国 、 
哥伦比亚 和 加 拿 大 的 天 气 ， 模 型 尤其 注重 于 建立 用 来 预测 每 天 的 最 高 、 最 低 气 温和 
风速 等 ， 这 几 个 国家 一 年 内 每 天 所 观测 到 的 数据 都 包含 在 其 中 。 其 中 一 年 里 面 的 前 
11 个 月 的 数据 作为 网 络 的 训练 集 ， 最 后 一 个 月 的 数据 作为 测试 集 。 其 中 ， 最 理想 的 
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Elman 神经 网 络 模型 是 有 45 个 隐藏 层 ， 激 活 函 数 为 双 曲 正切 。 

在 Elman 神经 网 络 中 ， 气 温 峰 值 的 预测 和 实际 观测 值 的 平均 相关 系数 为 0. 96 ， 
最 低 气 温 预 测 和 实际 观测 值 的 平均 相关 系数 为 0.99。 并 且 ， 对 于 风速 的 预测 的 平均 
相关 系数 也 为 0. 99 。 

(2) 道 变 器 故障 特征 识别 

逆 变 器 是 城市 轨道 车 辆 的 重要 组 成 部 分 ， 如 果 它 们 发 生 故 障 会 导致 经 济 损失 、 
班次 延误 ， 以 及 乘客 对 服务 质量 和 可 靠 性 的 不 满 。 基 于 这 些 原因 ，Yao 等 应 用 Elman 
神经 网 络 完成 了 对 这 个 重要 设备 的 故障 检测 和 分 类 。 

他 构建 的 这 个 网 络 由 8 个 输入 神经 元 ,7 个 隐藏 层 神经 元 和 3 个 输出 层 神 经 元 组 
成 。 其 中 ，8 个 输入 对 应 于 从 逆 变 器 在 频谱 范围 内 接收 的 不 同 的 故障 信号 。3 个 输出 
分 别 对 应 电压 波动 信号 、 脉 冲 瞬 态 信号 和 频率 变化 信号 的 响应 变量 。 研 究 人 员 说 
“Elman 神经 网 络 分 析 技 术 可 以 用 来 识别 城市 轨道 车 辆 逆 变 器 的 故障 特征 ”。 

(3) 水 质 检测 

水 质 的 评 佑 通常 由 水 中 的 含 氮 总 量 (TN) 、 含 磷 总 量 (TP) 和 溶解 氧 (DO) 的 
含量 组 成 。Heyi 和 Gao 使 用 Elman 神经 网 络 预测 中 国 第 三 大 淡水 湖 一 一 太湖 的 水 质 。 
他 们 在 太湖 的 贡 湖 湾 中 的 3 个 不 同 的 站 点 测量 水 质 ， 观 测 点 的 选取 是 随机 的 ， 观 测 
值 的 70% 组 成 了 训练 集 ， 剩 下 的 30% 则 组 成 了 测试 集 。 

检测 中 选择 10 个 重要 参数 ， 作 为 水 质 评估 的 标准 。 他 们 构建 了 离散 Elman 网 络 
来 预测 TN、TP 和 DO。 在 测试 中 ,构建 了 9 个 模型 ， 而 每 个 模型 都 有 自己 的 特点 。 
每 个 模型 都 由 一 个 输入 层 、 一 个 隐藏 层 和 一 个 输出 层 组 成 。 每 个 模型 隐藏 层 中 结 点 
的 最 优 个 数 由 试验 和 错误 率 来 决定 。 

研究 人 员 的 报告 显示 ，TN 在 站 点 1、 站 点 2、 站 点 3 统计 的 决定 系数 分 别 为 
0.91、0.72 和 0.92。TP 在 站 点 1、 站 点 2、 站 点 3 统计 的 决定 系数 分 别 为 0. 68、 
0.45 和 0.61。 尽 管 TP 模型 的 值 没有 TN 模型 的 值 那么 高 ， 但 是 仍然 是 可 以 接受 的 。 
DO 在 站 点 1、 站 点 2、 站 点 3 统计 的 决定 系数 分 别 低 于 0.3、0.39 和 0.83。 对 于 这 
些 较 低 的 值 ， 研 究 人 员 建 议 “不仅 可 以 通过 增加 3 个 站 点 训练 集 和 测试 集 的 数据 ， 
还 可 以 通过 导入 和 湖水 流动 方向 相关 的 变量 来 提高 模型 的 准确 性 ”。 

(4) 金融 指数 预测 

预测 金融 指数 (例如 股市 ) 的 能 力 是 EHlman 神经 网 络 吸引 人 的 地 方 。 研 究 人 员 
为 四 种 指数 分 别 创建 了 一 个 模型 ， 其 中 ， 上 海 证 券 交 易 所 (SSE) 综合 指数 模型 隐 
藏 屋 有 9 个 结 点 ， 台 湾 证 券 交易 所 (TWSE) 市 值 加 权 指 数 模型 隐藏 层 有 12 个 结 点 ， 
64 































































































韩国 股票 价格 指数 (KOSPI) 和 日 经 225 指数 ( Nikkei225) 模型 隐藏 层 每 个 都 有 10 
吉 点 。 人 研究 人 员 的 报道 称 ， 这 四 个 模型 和 实际 观察 值 之 间 的 相关 系数 都 达到 了 
0. 99 ， 建 立 模 型 使 用 的 数据 覆盖 了 2000 个 交易 日 的 收盘 价 数据 。 


4.3 Jordan 网 络 


4. 3.1 Jordan 网 络 结构 














Jordan 网 络 与 Flman 神经 网 络 类 似 ， 唯 一 不 同 的 是 ， 承 接 层 神经 元 的 输入 来 自 
输出 层 的 输出 而 不 是 隐藏 层 的 输出 ， 如 图 4.5 所 示 。 








> 


ee 


图 4.5 简单 的 Jordan 网 络 
激活 的 输出 层 结 点 不 断 地 反馈 给 承接 层 结 点 ， 为 网 络 提供 了 记忆 以 前 状态 的 
机 人 制 。 





4.3.2 Jordan 网络 应 用 


时 间 序 列 数据 使 用 Jordan 网 络 建立 分 类 模型 特别 有 效 。 下 面 列 举 一 些 现实 世界 
的 例子 说 明 Jordan 网 络 预测 分 析 工 具 的 使 用 。 

(1) 风速 预测 

准确 预测 沿海 地 区 风速 ， 对 于 一 个 大 的 工业 区 以 及 交通 和 社会 海洋 活动 是 非常 
重要 的 。 例 如 ， 操 纵 风力 涡轮 机 ， 飞 机 、 轮 船 的 导航 。 风 速 预测 是 确定 预期 的 有 用 
功率 输出 的 依据 。Anurag 和 Deo 构建 的 Jordan 网 络 是 为 了 预测 印度 沿海 地 区 每 日 、 
每 周 和 每 月 的 风速 。 

从 印度 气象 部 门 获得 的 数据 覆盖 了 12 年 内 党 海 重 买 地 区 以 及 印度 西海 岸 。 使 用 
三 个 Jordan 网 络 分 别 预测 每 日 、 每 周 和 每 月 的 风速 。 
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这 三 个 模型 的 均 方 误差 都 小 于 10% 。 然 而 ， 每 日 预测 比 每 周 的 预测 更 准确 ; 每 
周 的 预测 比 每 月 的 预测 更 准确 。 工 程 师 也 比较 了 网 络 预测 和 自动 回归 集成 移动 平均 
(ARIMA) 时 间 序 列 预测 模型 ， 他 们 发 现 “Jordan 网 络 预测 也 比 传统 的 时 间 序 列 分 析 
方法 更 准确 ”。 

(2) 蛋白 质 间 相互 作用 分 类 

和 蛋白质 相互 作用 是 指 生 物 细胞 内 和 蛋白质 之 间 的 相互 作用 发 生 的 生化 事件 。 据 说 ， 
这 种 交互 对 理解 疾病 发 病 机 理 和 开发 新 的 治疗 方法 非常 重要 。 有 许多 不 同 的 方法 用 
来 研究 蛋白 质 的 相互 作用 ， 如 从 生物 化 学 、 量 子 化 学 、 分 子 动力 学 和 信和 号 传导 等 ， 
所 有 这 些 信息 使 得 创建 大 型 蛋白 质 相互 作用 数据 库 成 为 可 能 。 

计算 机 科学 家 Dilpreet 和 Singh 应 用 Jordan 网 络 来 分 类 蛋白质 间 相互 作用 。 在 他 
们 的 分 析 中 ， 使 用 的 样本 来 自 三 个 现 有 的 数据 库 ， 数 据 库 包含 了 753 个 正 例 模式 和 
656 个 反例 模式 。 使 用 氨基 酸 组 成 的 蛋白 质 作为 Jordan 网 络 的 输入 ， 分 类 有 相互 作用 
的 蛋白 质 和 无 相互 作用 的 和 蛋白质， 研究 表明 分 类 精度 达到 97. 25% 。 

(3) 西班牙 语 数字 语音 识别 

神经 网 络 已 成 功 地 解决 了 英语 语音 识别 的 难题 。Tellez Paola 使 用 Jordan 网 络 研 
究 了 西班牙 语 数字 0 ~9 的 分 类 。 

数据 集 为 10 个 演讲 中 被 记录 的 数字 语音 ， 包 括 3 个 女人 和 3 个 男人 的 声音 。 每 
个 人 被 要 求 重复 每 个 数字 4 遍 。 然 后 用 9 个 随机 初始 化 的 Jordan 网 络 训练 ， 实 现 对 
数字 分 类 ， 结 果 平 均 分 类 精度 达到 96. 1% 。 























4.4 RNN 的 R 实现 








在 英国 ， 天 气 总 是 一 个 聊 谈 的 话题 ， 因 为 ， 英格兰 的 天 气 总 是 在 变化 。 你 可 以 
在 一 天 里 体验 四 个 季节 。 

【 例 4.1】 使 用 Jordan 网 络 建立 诺丁汉 市 气温 预测 模型 。 

与 Elman 网 络 类 似 ，Jordan 网 络 模 型 也 是 对 时 间 序 列 数据 的 建 模 工具 。 

(1) 加 载 使 用 的 包 和 数据 








> library( RSNNS) 
> library( quantmod ) 
> library( datasets ) 


> data( nottem) 
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多 datasets 包 的 nottem 数据 集 ，nottem | 了 诺丁汉 市 ， 每 年 每 月 平 








> nottem 


Jan Feb Mar Apr May Jun jul Aug Sep oct Nov Dec 


1920 40.6 40.8 44.4 46.7 54.1 58.5 $57.7 56.4 54.3 S50.5 42.9 39.8 
1921 44.2 39.8 45.1 47.0 34.1 58.7 66.3 59.9 57.0 54.2 39.7 42.8 
1922 37.5 38.7 39.5 42.1 55.7 57.8 56.8 $54.3 54.3 47.1 41.8 41.7 
1923 41.8 40.1 42.9 45.8 49.2 52.7 64.2 59.6 54.4 49.2 36.3 37.6 
1924 39.3 37.5 38.3 45.5 53.2 57.7 60.8 58.2 56.4 49.8 44.4 43.6 
1925 40.0 40.5 40.8 45.1 53.8 59.4 63.5 61.0 53.0 50.0 38.1 36.3 
1926 39.2 43.4 43.4 48.9 50.6 56.8 62.5 62.0 57.5 46.7 41.6 39.8 
1927 39.4 38.5 45.3 47.1 $1.7 33.0 60.4 60.5 54.7 50.3 42.3 35.2 
1928 40.8 41.1 42.8 47.3 30.9 56.4 62.2 60.5 55.4 50.2 43.0 37.3 
1929 34.8 31.3 41.0 43.9 53.1 56.9 62.5 60.3 59.8 49.2 42.9 41.9 
1930 41.6 37.1 41.2 46.9 51.2 60.4 60.1 61.6 57.0 S50.9 43.0 38.8 
1931 37.1 38.4 38.4 46.5 53.5 58.4 60.6 58.2 53.8 46.6 45.5 40.6 
1932 42.4 38.4 40.3 44.6 50.9 57.0 62.1 63.5 56.3 47.3 43.6 41.8 
1933 36.2 39.3 44.5 48.7 54.2 60.8 65.5 64.9 60.1 50.2 42.1 35.8 
1934 39.4 38.2 40.4 46.9 53.4 59.6 66.5 60.4 59.2 51.2 42.8 45.8 
1935 40.0 42.6 43.5 47.1 30.0 60.5 64.6 64.0 56.8 48.6 44.2 36.4 
1936 37.3 35.0 44.0 43.9 52.7 58.6 60.0 61.1 58.1 49.6 41.6 41.3 
1937 40.8 41.0 38.4 47.4 54.1 58.6 61.4 61.8 56.3 50.9 41.4 37.1 
1938 42.1 41.2 47.3 46.6 52.4 59.0 59.6 60.4 57.0 50.7 47.8 39.2 
1939 39.4 40.9 42.4 47.8 52.4 58.0 60.7 01.8 S58.2 46.7 46.6 37.8 





没有 出 现任 何 缺 失 值 ， 检 查 一 下 nottem 数据 类 型 : 


> class(nottem ) 


[1] ts" 


Nottem 是 一 个 时 间 序 列 ts 对 象 ， 了 解数 据 的 类 型 是 非常 重要 的 ， 特 别 是 使 用 日 
期 类 型 或 R 的 不 同类 型 的 混合 。 

图 4.6 显示 了 nottem 观察 数据 的 时 间 序 列 散 点 图 。 数 据 覆 盖 1920 ~1939 年 ， 虽 
然 没 有 任何 明显 趋势 ， 然 而 它 确实 表现 出 强烈 的 季节 性 。 
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图 4.6 1920 ~ 1939 年 诺丁汉 市 月 平均 温度 
画 时 间 序 列 散 点 图 命令 如 下 : 








> plot( nottem) 


(2) 数据 探索 
在 使 用 神经 网 络 模型 之 前 ， 需 要 归 一 化 数据 的 属性 。 下 面 给 出 常用 的 四 种 归 一 
化 方法 : 














Mi 一 % 
二 
NX —N 
Xi 一 和 
估 二 
OO, 
Xi 
益 三 
SS, 
Xi 
一 
” %uw 十 | 


式 中 ，55, 是 %, 的 平方 和 ; % 是 x 的 均值 ，o, 是 * 的 标准 差 。 因 为 没有 任何 说 明 性 变 
量 ， 所 以 ， 首 先 使 用 log 变换 数据 ， 再 使 用 scale 函数 标准 化 数据 。 


>y<-as. ts(nottem ) 
>y<-log(y) 
>y<— as. ts(scale(y)) 
因为 建 模 数 据 有 很 强 的 季节 性 特征 ， 似 乎 依赖 于 月 ， 所 以 使 用 滞后 12 个 月 的 数据 作 
为 Jordan 网 络 12 个 属性 的 输入 。Quantmod 包 的 Lag 函数 需要 的 数据 类 型 为 zoo 类 。 








>y<-as. zoo(y) 
>xl <-Lag(y,k=1) 
(人 三 2 
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>x3 <-Lag(y,k =3) 
>x4<-Lag(y,k =4) 
>x5 <—- Lag(y,k =5) 
>x6 <—-Lag(y,k =6) 
>x7 <-Lag(y,k =7) 
>x8 <—- Lag(y,k =8) 
>x9 <-Lag(y,k =9) 
>xl0 <- Lag(y,k =10) 
>xll <- Lag(y,k =11) 
>xl2 <- Lag(y,k =12) 


与 Elman 神经 网 络 类 似 ， 需 要 删除 NA 值 ， 最 后 将 清洗 后 的 数据 存 和 人 temp 中 。 








>temp <— cbind(x] ,x2 ,x3 ,x4 ,x5 ,x6 ,x7 ,x8 ,x9 ,xl0,xll,xl2 ) 
>temp <— cbind(y,temp ) 
>temp <— temp | -(1:12) ,| 
数据 探索 最 后 一 步 是 使 用 plot 函数 可 视 化 所 有 属性 和 响应 变量 的 分 布 ， 如 图 4.7 
所 示 。 














> plot( temp) 


Series 1 
并 

Lag.7 
So 


Lag.2 Lag.l 
bo bo 
Lag.8 
bo 
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图 4.7 Jordan 网 络 响应 变 
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(3) 训练 样本 选择 














>n=nrow( temp ) # 观 测 数 据 个 数 

ATE 

[1]228 

> set. seed(465) # 设 置 种 子 

>n_train <— 190 # 设 置 训 练 集 大 小 

>train <— sample(1:n,n_ train,FALSE ) # 随 机 选取 190 个 训练 样本 
(4) 建 模 

> inputs <— temp [ ,2:13] # 属 性 变量 

> outputs <— temp [ ,1] # 响 应 变量 


>fit<- jordan(inputs[ train] ,outputs[ train ] , # 建 模 


size =2， # 隐 藏 层 数 
learnFuncParams =c(0.01) ， # 学 习 率 
maxit = 1000) # 最 大 迭代 次 数 


(5) 模型 部 署 
使 用 plotlterativeError 国 数 显示 迭代 误差 ， 如 图 4. 8 所 示 。 














> plotIterativeError( fit ) 


前 100 次 迭代 误差 下 降 相 当 快 ， 大 约 迭 代 300 次 趋 于 稳定 。 


权重 平方 和 











400 600 800 1000 


图 4.8 训练 误差 与 迭代 次 数 


使 用 predict 函数 对 测试 样本 进行 预测 ， 并 计算 测试 样本 响应 变量 和 预测 值 之 间 
的 平方 相关 系数 。 
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> pred <— predict(fit,inputs | — train ] ) 


> cor( outputs | - train ] ,pred ) 2 


[1 , ]0. 9050079 





因为 平方 相关 系数 大 于 0.9， 所 以 模型 是 成 功 的 。 

【 例 4.2】 建 立 一 个 RNN 模型 ， 预 测 在 英国 死 于 支气管 炎 、 肺 气 肿 、 哮 跨 的 总 
人 数 。 

(1) 检查 机 器 上 安装 了 哪些 包 








> pack <— as. data. frame( installed. packages( ) | ,c(1,3:4) ]) 
> rownames(pack) <- NULL 
> pack <— pack[ is. na(pack$Priority ) ,1:2,drop =FALSE | 


> print( pack ,row. names = FALSE ) 
(2) 加 载 需要 的 包 和 数据 


> library( RSNNS) 
> library( quantmod ) 
> library( datasets ) 


> data( UKLungDeaths ) 


使 用 的 数据 在 datasets 包 里 面 ， 所 需要 的 数据 结构 为 UKLungDeaths。dataests 包 
是 默认 加 载 的 包 ， 所 以 不 需要 专门 加 载 它 。 但 是 ， 调 用 它 也 是 一 种 有 益 的 练习 。 
UKLungDeaths 数据 库 包 含 了 3 个 1974 ~ 1979 年 英国 每 个 月 支气管 炎 、 肺 气 肿 、 
哮喘 的 死亡 人 数 的 时 间 序 列 。 第 一 个 时 间 序列 是 死亡 的 总 人 数 (ldeaths) ; 第 二 个 时 
间 序列 是 男性 死亡 人 数 (mdeaths) ;第 三 个 时 间 序列 是 女性 死亡 人 数 (fmdeaths) 。 
可 以 通过 使 用 plot 函数 可 视 化 这 些 数据 ( 见 图 4 9) ， 方 法 如 下 : 
































>par( mfrow =c(1,3))  # 和 窗口 划分 为 1 行 3 列 
> plot( ldeaths ,xlab =" Year " ,ylab =" Both sexes " ,main=" Total ") 
> plot( mdeaths ,xlab =" Year " ,ylab =" Males " ,main=" Males ") 


> plot( fdeaths ,xlab =" Year " ,ylab =" Females " ,main =" Females ") 


总 而 言 之 ， 随 着 时 间 的 推移 ， 可 以 看 到 死亡 人 数 有 着 巨大 的 变化 ， 每 月 死亡 人 

数 的 波动 清晰 可 见 。 可 以 观察 到 ，1976 年 出 现 每 月 最 高 和 最 低 的 死亡 总 数 。 有 趣 的 
是 ， 对 于 男性 来 说 ， 每 个 周期 的 最 低 点 呈现 下 降 的 趋势 。 而 进入 1979 年 以 后 所 有 的 
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趋势 都 呈 相 当 明 显 的 下 降 。 


Both sexes 


速 检 
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a) b) 9) 
图 4.9 英国 每 个 月 支气管 炎 、 肺 气 肿 、 哮 跨 死 亡 人 数 
a) 总 人 数 b) 男性 死亡 人 数 ; ce) 女性 死亡 人 数 


(3) 数据 探索 





因为 对 死亡 总 数 的 建 模 感 兴趣 ， 所 以 重点 分 析 ldeaths 数据 结构 。 在 此 之 前 ， 快 





查 缺 失 数据 。 


> sum(is. na( ldeaths ) ) 


[1j0 





表示 数据 集 ldeaths 没有 缺失 数据 ， 接 下 来 ， 检 查 ldeaths 类 型 。 


> class( ldeaths ) 


Ee ts" 


表示 ldeaths 是 一 个 时 间 序 列 对 象 ， 图 4. 10 


线 图 。 
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>par( mfrow =c(3,1)) 
> plot( ldeaths ) 


>Xx<- density( ldeaths ) 








局 


时 


示 了 时 间 序 列 图 、 核 密度 图 和 箱 














# 徐 口 划分 为 3 行 1 列 


> plot(x,main = "UK total deaths from lung diseases " ) 


> polygon(x,col =" green " ,border =" black ") 


> boxplot( ldeaths, col =" 


cyan 


" ,ylab=" NumbeR of deaths per month " ) 
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图 4.10 死亡 总 数 的 形象 化 总 结 
(4) 数据 转换 


由 于 数据 似乎 存在 某 种 规律 ， 所 以 将 其 转换 成 一 种 适合 进行 Elman 神经 网 络 工 
作 的 形式 。 首 先 ， 将 数据 复制 一 份 ， 存 储 在 变量 y 中 。 





>y<-as. ts( ldeaths ) 
当 使 用 时 间 序 列 时 ， 一 般 将 数据 转换 成 对 数 。 将 数据 转换 成 对 数 ， 数 据 会 更 加 
规范 化 。 
>y<-log(y) 


通过 scale 函数 使 数据 看 起 来 更 加 规范 。 





>y<— as.ts(scale(y) ) 


注意 ，as. ts 函数 确保 变换 后 仍然 是 ts 对 象 。 
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了 本 


既然 无 法 将 这 个 数据 归于 其 他 的 类 别 ， 那么 就 使 用 纯 时 间 序 列 的 方法 。 这 种 

模 方法 的 主要 问题 是 需要 多 少 滞后 变量 (lags)? 既然 是 对 一 年 内 的 每 个 月 都 进行 了 

见 察 ， 所 以 使 用 12 作为 滞后 变量 。 实 现 这 个 操作 的 方法 是 使 用 quantmod 包 里 面 的 
Lag 操作 函数 ， 这 就 需要 将 y 转变 成 一 个 zoo 类 的 对 象 。 


























>y<-as. zoo(y) 
xl <— Lag(y,k =1) 
x2 <— Lag(y,k =2) 
x3 <— Lag(y,k =3) 
x4 <—- Lag(y,k =4) 
x5 <— Lag(y,k =5) 
x6 <— Lag(y,k =6) 
x7 <— Lag(y,k =7) 
x8 <— Lag(y,k =8) 
x9 <— Lag(y,k =9) 
xl0 <— Lag(y,k =10) 
xll < -Lag(yk=11) 
xl2 <-Lag(y,k=12) 








通过 这 个 操作 得 到 了 12 个 属性 作为 神经 网 络 的 输入 。 下 一 步 是 将 这 12 个 观测 
值 组 合成 一 个 数据 框 。 





> deaths <— cbind(xl ,x2 ,x3 ,x4,x5 ,x6,x7,x8,x9,xl0,xll,xl2 ) 


> deaths <— cbind(y,deaths ) 
观察 deaths 里 面包 含 什么 
> head(round( deaths,2) ,10) 


Series |] Lag. 1 Lag.2 Lag.3 Lag.4 Lag.3 Lag.6 Lag.7 Lag.8 Lag.9 Lag. 10Lag. 11 Lag. 12 
































1 1.51 NA NA NA NA NA NA NA NA NA NA NA NA 
2 0.90 1.51 NA NA NA NA NA NA NA NA NA NA NA 
3 1.10 0.90 1.51 NA NA NA NA NA NA NA NA NA NA 
4 0.90 1.10 0.90 1.51 NA NA NA NA NA NA NA NA NA 
5 0.07 0.90 1.10 0.90 1.51 NA NA NA NA NA NA NA NA 
6 -0.62 0.07 0.90 1.10 0.90 1.51 NA NA NA NA NA NA NA 
7 -0.48 -0.62 0.07 0.90 1.10 0.90 1.51 NA NA NA NA NA NA 




















8 0. 91 0. 48 0.62 0.07 0.90 1.10 0.90 1.51 NA NA NA NA NA 





9 0.75 0.91 0.48 -0.62 0.07 0.90 1.10 0.90 1.51 NA NA NA NA 








10 0. 17 0. 7 0.91 -0.48 -0.62 0.07 0.90 1.10 0.90 1.51 NA NA NA 
注意 到 NA 的 池 后 值 从 1 增 大 到 12。 使 用 延迟 的 目的 就 是 为 了 得 到 这 个 结果 。 
然而 ,需要 从 数据 集 里 面 删 去 NA 观测 值 。 





























> deaths <— deaths [ —(1:12),] 


现在 已 经 准备 好 开始 创建 训练 集 和 测试 集 。 首 先 ， 计 算出 数据 的 行 数 ， 并 且 使 
用 set. seed 函数 来 输出 它 。 





>n=nrow( deaths) 


[1160 


> set seed( 465) 


作为 一 种 快速 的 检测 方法 ， 可 以 看 到 有 60 行 的 观测 数据 可 以 用 来 作为 分 析 。 为 
了 解决 滞后 值 的 问题 ， 删 除了 12 行 的 观测 值 ， 而 结果 也 达到 了 预期 。 

使 用 其 中 的 45 行 数据 来 建 模 ， 剩 下 的 15 行 用 来 作为 测试 集 。 用 如 下 代码 随机 
选择 一 些 不 重复 的 数据 ; 





























>n train <— 45 


>train <— sample(1:n,n_ train,FALSE ) 
0 
为 了 使 过 程 变 得 更 加 人 简单 一 点 ， 可 以 将 包含 有 滞后 值 的 协 方差 的 属性 放 入 到 R 
的 inputs 对 象 里 面 ， 将 相应 变量 放 到 ouputs 对 象 里 面 。 








> inputs <— deaths[ ,2:13 ] 


> outputs <— deaths[ ,1 |] 





在 每 个 神经 网 络 中 ， 配 置 有 两 个 隐藏 层 ， 每 个 隐藏 层 里 面 都 包含 一 个 结 点 。 并 
将 学 习 速率 设置 为 0.1， 最 大 的 迭代 次 数 设 置 为 1000。 
>fit<— elman(inputs [ train | ,outputs | train ] ,size =c(1,1), 


leaRnFuncPaRams = c(0. 1) ,maxit =1000) 
知 给 定 一 个 较 小 的 数据 ， 模 型 的 收 和 敛 会 变 得 很 快 ， 可 以 画 出 如 图 4. 11 所 示 的 误 


差 函 数 。 
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summaRy 函数 来 得 到 神经 网 络 细节 方面 的 信息 


> plotIterativeError( fit ) 
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图 4.11 Elman 函数 误差 图 像 
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从 图 4.11 可 以 看 出 ,误差 迅速 减 小 ， 大 约 在 500 次 迭代 后 趋 于 稳定 ， 可 以 使 用 


> summary( fit ) 





unit definition section: 


no. 





typeName 





unitName 








0. 15181 
一 0. 32468 
0. 09987 
0. 63419 
0. 02857 
一 0. 05401 
一 0. 04920 
0. 77409 
0. 66627 
0. 02014 
一 0. 52729 
一 0. 15885 
一 0. 76258 
一 0.71341 


日 性 \o 


h 


2931.21216 | 。 


0. 50000 
0. 50000 


sh 





position 


ex 
LD 


人 


DO co ~ 人 耻 wm 人 上 





13, 1, 0 
19, 1, 0 
|4, 14, 0 


sh |10, 14,0 





act func 


Act_Identity 
Act_Identity 
Act_Identity 
Act_Identity 
Act_Identity 
Act_ Identity 
Act Identity 
Act_Identity 
Act_Identity 
Act_Identity 


Act_Identity 





Act_ldentity 


| Act Identity 


Act_Identity 





Act_Identity 


通过 这 个 琐 数 可 以 得 到 很 多 R 的 输出 值 ， 找 到 输出 中 如 下 所 示 的 部 分 。 


out func 


sites 








从 第 一 列 中 ， 可 以 得 到 结 点 或 者 神经 元 的 数量 ， 而 且 可 以 知道 这 个 网 络 一 共有 
17 行 。 它 的 第 三 列 描述 了 神经 元 的 类 型 ， 从 中 可 以 得 知 有 12 个 输入 神经 元 、2 个 隐 
藏 神经 元 和 1 个 输出 神经 元 ， 在 承接 层 有 2 个 神经 元 。 第 四 列 和 第 五 列 给 出 了 激活 
函数 的 值 和 每 个 神经 元 的 偏 置 。 例 如 ， 第 一 个 神经 元 的 激活 函数 值 为 -0.98260， 偏 
置 为 0.15181。 

(6) 模型 部 署 

现在 ， 在 测试 集 上 用 prRedict 函数 来 测试 一 下 这 个 模型 。 

> pred <— predict(fit,inputs | — train ] ) 


> plot( outputs[ - train | ,pred) 


(7) 模型 评估 











预测 值 和 实际 值 的 散 点 图 如 图 4. 12 所 示 。 
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图 4.12 RNN 的 实际 值 和 预测 值 


> cor( outputs [ — train ] ,pred )2 
[ ,1] 
[1,]0.7845 
由 此 可 知 ， 平 方 相关 系数 为 0.78。 可 以 尝试 不 同 的 模型 来 提高 这 个 系数 ， 以 达 
到 理想 值 。 试 一 试 ， 通 过 重新 建 模 来 达到 整体 性 能 提高 的 效果 。 




















4.5 学 习 指 南 


RNN 对 时 间 序 列 数 据 的 建 模 尤其 有 效 。 
训练 Elman 神经 网 络 可 以 用 train( ) 或 adapt( )。 两 个 孔 数 不 同 之 处 在 于 ，train( ) 
函数 应 用 反 向 传播 训练 函数 进行 权 值 修正 ， 通 常 选用 traingdx 训练 隐 数 ，adapt( ) 函 
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数 应 用 学 习 规 则 函数 进行 权 值 修正 ， 通 常 选用 learngdm 函数 。 

Elman 神经 网 络 的 可 靠 性 要 比 一 些 其 他 类 型 网 络 差 一 些 ， 这 是 因为 在 训练 和 调整 
时 ， 应 用 误差 梯度 的 估计 值 。 恰 恰 因 为 这 一 点 ， 构 建 网 络 时 ， 为 了 达到 这 一 精度 ， 
Elman 神经 网 络 隐藏 层 神经 元 的 数目 比 其 他 网 络 结构 相对 较 多 。 
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第 5 章 自 编码 网 络 AE 


5.1 无 监督 学 习 过 程 





深度 学 习 最 简单 的 一 种 方法 是 利用 人 工 神经 网 络 (Artificial Neural Network ， 
ANN) 的 特点 ， 人 工 神 经 网 络 本 身 就 是 具有 层次 结构 的 系统 ， 如 果 给 定 一 个 神经 网 
络 ， 假 设 其 输出 与 输入 是 相同 的 ， 然 后 训练 调整 其 参数 ， 得 到 每 一 层 中 的 权重 。 自 
然 地 ,得 到 了 输入 I 的 几 种 不 同 表示 (每 一 层 代 表 一 种 表示 ) ， 这 些 表 示 就 是 特征 。 
自动 编码 (Auto Encoder，AE) 网 络 就 是 一 种 尽 可 能 复 现 输入 信号 的 神经 网 络 。 为 
了 实现 这 种 复 现 ，AE 必须 捕捉 可 以 代表 输入 数据 的 最 重要 的 因素 ， 就 像 主 成 分 分 析 
(Principal Component Analysis，PCA) 那样 ， 找 到 可 以 代表 原 信息 的 主要 成 分 。 

在 本 章 之 前 的 神经 网 络 中 〈 见 图 5. la) ， 输 入 的 样本 是 有 标签 的 ， 网 络 根据 当 
前 输出 和 实际 值 之 间 的 差 来 改变 前 面 各 层 的 参数 ， 直 到 收敛 。 但 现在 只 有 无 标签 数 
据 ， 也 就 是 图 5. 1b。 那 么 这 个 误差 怎么 得 到 呢 ? 
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图 5.1 两 种 网 络 对 比 





如 图 5. 2 所 示 ， 将 信号 input 输入 到 编码 (encoder) ， 就 会 得 到 一 个 特征 ， 这 
个 特征 就 是 输入 的 一 个 表示 ,那么 怎么 知道 这 个 特征 表示 的 就 是 输入 呢 ? 可 以 再 加 
一 个 解码 器 ， 这 时 候 解 码 带 会 输出 一 个 信息 ， 如 果 输 出 的 信息 和 一 开始 的 输入 信和 号 
是 很 像 的 (理想 情况 下 就 是 一 样 的 ) ， 就 可 以 相信 这 个 特征 是 正确 的 。 所 以 ， 可 以 通 
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过 调整 编码 器 和 解码 需 的 参数 ， 使 得 重 构 误 差 最 小 ， 得 到 输入 信和 号 的 第 一 个 表示 。 
因为 是 无 标签 数据 ， 所 以 误差 的 来 源 就 是 直接 重 构 后 与 原 输入 相 比 得 到 的 〈 见 图 
5.3)。 

















图 5.2 无 监督 特征 学 习 过 程 








图 5.3 重 构 过 程 


5.2 AE 基本 结构 








目 编码 网 络 ( AE) 是 一 种 无 监督 学 习 三 层 前 向 反馈 神经 网 络 ， 架 构 如 图 5.4 所 
示 ， 与 多 层 感知 器 非常 相似 ， 它 包括 一 个 输入 层 、 隐 藏 层 和 输出 层 。 输 入 层 的 神经 
元 数目 和 输出 层 的 神经 元 数目 是 相同 的 。 隐 藏 层 神经 元 的 数目 少 于 或 者 多 于 输入 神 
经 元 的 数目 。 它 不 同 于 MLP， 因 为 输出 层 有 着 和 输入 层 一 样 多 的 结 点 ， 而 不 是 通过 
给 出 的 x 来 训练 预测 一 些 目 标 值 y。 

AE 由 编码 器 和 译 码 器 组 成 。 输 入 层 到 隐藏 层 的 映射 被 称 为 编码 器 ; 隐藏 层 到 输 
出 层 的 映射 被 称 为 解码 咒 。 编 码 需 采用 输入 属性 的 向 量 ， 通 常 通过 在 隐藏 层 的 sig- 
moid 激活 函数 将 它们 转化 为 新 的 特征 ， 然 后 解码 器 将 这 些 特征 转换 回 原来 的 输入 属 
性 。 举 个 例子 ， 在 图 5.4 中 ，AE 使 用 三 个 隐藏 单元 ， 每 一 个 单元 包含 sigmoid 激活 
函数 hh 、h,、h， 将 属性 x, 、x，,、x3、x4、x;、% 编 码 ， 解 码 后 得 到 x,(i =1,…,6) 的 
原始 属性 的 估计。 

AE 尝试 学 习 一 个 及,,(x) x 的 函数 ， 也 就 是 说 ， 使 得 输出 + 接近 于 输入 x。 为 


了 使 这 个 函数 有 意义 ,需要 加 入 一 些 限制 条 件 ( 比如 限制 隐藏 层 神经 元 的 数目 ， 即 
$0 







































































图 5.4 基本 AE 结构 


稀 琉 性 ) 。AE 可 以 学 习 到 数据 的 一 些 压缩 ( 降 维 ) 表示 ， 即 输入 数据 的 另 一 种 相关 
性 表示 。 

稀 玻 性 限制 是 指 如 果 当 神经 元 的 输出 接近 于 1 的 时 候 认 为 它 被 激活 ， 而 输出 接 
近 于 0 的 时 候 认 为 它 被 抑制 ， 那 么 使 得 神经 元 大 部 分 的 时 间 都 是 被 抑制 的 限制 则 被 
称 作 稀 玻 性 限制 。 这 里 假设 神经 元 的 激活 函数 是 sigmoid 函数 。 











s.2.1 降 维 问题 














通过 隐藏 层 学 习 刀 .,(xz) ， 可 以 重建 原始 输入 x， 如 果 隐 藏 层 神经 元 的 数量 大 于 
输入 层 神经 元 数量 ， 那 么 隐藏 层 的 输入 映射 到 一 个 更 高 的 维度 。 相 似 地 ， 如 果 隐 茂 
神经 元 的 数量 少 于 输入 神经 元 的 数量 ， 那 么 AE 的 隐藏 层 用 如 此 方法 ， 本 质 上 是 压缩 
输入 属性 ， 使 重 构 更 有 效 。 

压缩 指 原始 输入 属性 可 以 用 更 低 维 度 的 属性 表示 。 例 如 ， 当 AE 有 400 个 输入 神 
经 元 和 60 个 隐藏 结 点 ， 原 始 的 400 维 输入 会 被 近似 地 “重建 ”为 来 自 隐藏 层 的 60 
维 输出 。 如 果 使 用 隐藏 层 的 输出 作为 一 个 网 络 的 输入 代表 ,那么 AE 扮演 了 一 个 特征 
提取 的 作用 。 

事实 证 明 ，AE 可 以 实现 多 种 降 维 技术 。 一 个 线性 AE 可 以 学 习 数 据 的 特征 向 量 
相当 于 主 成 分 分 析 运 用 到 输入 上 。 非 线性 AE 能 够 发 现 更 复杂 的 主 成 分 。 在 涉及 笔迹 
和 人 脸 识别 的 降 维 任务 中 ， 非 线性 AE 优 于 主 成 分 分 析 。 

因此 ，AE 可 以 用 来 学 习 有 着 最 小 重建 损失 的 数据 的 压缩 (或 扩大 )。 正 如 深度 


学 习 学 者 杰 弗 里 . 泣 顿 (Hinton) 所 指出 的 “ 自 20 世纪 80 年 代 以 来 , 已 经 显 而 
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见 了 ， 通 过 深度 AE 的 反 向 传播 对 于 非 线性 降 维 非常 有 效 ， 如 果 能 提供 尽 可 能 快 的 计 
算 机 、 足 够 大 的 数据 集 和 初始 权 值 ， 将 会 足够 接近 一 个 好 的 解决 方案 。 现 在 三 个 条 
件 都 满足 了 。 不 像 非 参 数 方法 ，AE 在 数据 和 编码 空间 之 间 给 出 了 双向 映射 ， 随 着 时 
间 和 空间 的 变化 ， 训 练 样本 都 被 线性 地 训练 和 微调 ， 所 以 ， 它 们 可 以 应 用 到 非常 大 
的 数据 集 。” 

最 著名 的 降 维 技术 是 主 成 分 分 析 (Principal Component Analysis，PCA)。PCA 站 
在 利用 降 维 的 思想 ， 把 多 指标 转化 为 少数 几 个 综合 指标 ( 即 主 成 分 ) ， 其 中 每 个 主 成 
分 都 能 够 反映 原始 变量 的 大 部 分 信息 ， 且 所 含 信息 互 不 重复 。 这 种 方法 在 引进 多 方 
面 变 量 的 同时 将 复杂 因素 归结 为 几 个 主 成 分 , 使 问题 简单 化 ， 同 时 得 到 的 数据 更 加 
科学 和 有 效 。 在 实际 问题 研究 中 ,为 了 人 全面、 系统 地 分 析 问 题 ， 必 须 考 虑 众多 影响 
因素 。 这 些 涉 及 的 因素 一 般 称 为 指标 ， 在 多 元 统计 分 析 中 也 称 为 变量 。 因 为 每 个 变 
量 都 在 不 同 程度 上 反映 了 所 研究 问题 的 某 些 信息 ， 并 且 指 标 之 间 彼 此 有 一 定 的 相关 
性 ， 因 而 所 得 的 统计 数据 反映 的 信息 在 一 定 程度 上 有 重合 。 主 要 方法 有 特征 值 分 解 、 
SVD 、NMF 等 。 

主 成 分 分 析 法 是 一 种 数学 变换 的 方法 ， 它 把 给 定 的 一 组 相关 变量 通过 线性 变换 
转换 成 另 一 组 不 相关 的 变量 ， 这 些 新 的 变量 按照 方差 依次 递减 的 顺序 排列 。 在 数学 
变换 中 保持 变量 的 总 方差 不 变 ， 使 第 一 变量 具有 最 大 的 方差 ， 称 为 第 一 主 成 分 ; 第 
二 变量 的 方差 次 大 ， 并 且 和 第 一 变量 不 相关 ， 称 为 第 二 主 成 分 。 依 次 类 推 ，7 个 变量 
就 有 7 个 主 成 分 。 

如 果 输 入 属性 不 包含 结构 ， 那 么 降 维 是 徒劳 的 。 例 如 ， 如 果 输 入 的 属性 是 完全 
随机 的 ， 那 么 降 维 是 不 可 行 的 。 有 效 的 降 维 需要 属性 是 相关 的 或 者 在 某 些 程度 上 是 
有 联系 的 。 换 句 话 说 ， 需 要 一 些 可 以 用 来 降 维 数 据 的 结构 。 如 果 结 构 不 存在 ,那么 
使 用 AE 来 降 维 很 可 能 会 失败 。 




































































5.2.2 特征 抽取 


AF 是 为 了 训练 一 个 至 少 有 一 个 隐藏 层 的 网 络 来 重建 其 输入 。 输 出 值 被 设置 与 输 
入 值 相同 ， 即 * =x， 为 了 学 习 这 个 恒 等 函 数 及 ,,(x) =xz。AF 通过 输入 属性 到 隐藏 层 
结 点 的 映射 来 使 用 一 个 编码 功能 : 
h,,(x) =f/( Wx + bh) 
其 中 , x 是 属性 的 输入 向 量 ; /表示 sigmoid 函数 ，bh 是 隐藏 层 神经 元 的 偏 置 向 量 ， 


是 隐藏 层 权 值 和 矩阵 。 数 据 通过 使 用 一 个 线性 解码 被 重 构 : 
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忆 





gus(X) =Af( Wx + bh) + bg 

在 学 习 了 权 值 矩阵 W 之 后 ， 每 一 个 隐藏 层 神经 元 都 代表 了 输入 数据 的 某 一 特 
征 。 因 此 ,隐藏 层 h, ,(x) 可 以 作为 一 个 新 的 特征 代表 输入 数据 。 隐 藏 层 的 输出 表示 
h(x),, 通 过 解码 隐 数 g, ,() 重 构 输 入 x 的 近似 值 。 

编码 器 和 解码 器 最 常用 的 函数 是 非 线性 sigmoid 函数 。 通 过 梯度 下 降 算 法 使 用 反 
向 传播 来 最 小 化 平方 重建 误差 (g, ,(*) -<)  ， 从 而 完成 训练 。 

总 的 来 说 ，AE 是 一 个 试图 复制 其 输入 的 人 工 神经 网 络 ， 即 目标 输出 就 是 输入 。 
另 一 种 稍微 正式 的 说 法 是 ，AE 是 一 种 前 馈 神 经 网 络 ， 试 图 通过 在 训练 中 设 定 输出 等 
于 输入 来 学 习 一 个 恒 等 函 数 。 















































5.3 稀疏 自动 编码 网 络 SAE 


当然 ， 还 可 以 继续 加 上 一 些 约束 条 件 得 到 新 的 深度 学 习 方法 ， 如 : 假设 在 AE 的 
基础 上 加 上 L1 的 限制 (Ll 主要 是 约 东 每 一 层 中 的 结 点 大 部 分 都 为 0， 只 有 少数 不 为 
0， 这 就 是 Sparse 名 字 的 来 源 ) ， 就 可 以 得 到 稀 玻 自动 编码 (Sparse Auto Encoder， 
SAE) 网 络 。 

如 图 5. 5 所 示 ， 其 实 就 是 限制 每 次 得 到 的 表达 特征 尽量 稀 玖 。 因 为 稀 玖 的 表达 
往往 比 其 他 的 表达 要 有 效 (人 脑 好 像 也 是 这 样 的 ， 某 个 输入 只 是 刺激 某 些 神经 元 ， 
其 他 大 部 分 的 神经 元 是 受到 抑制 的 ) 。 











下 








四 | 



















稀 琉 惩罚 


呈 重 构 
编码 器 








-输入 :天 特征: h=WVIX 
-约束 : LC; W|IWi-X| +4) | 放 








图 5.5 稀疏 自动 编码 网 络 结构 





























通过 设置 隐藏 神经 元 的 数量 远 远大 于 输入 神经 元 的 数量 ， 建 立 输入 向 量 x 的 一 
个 非 线性 映射 ， 然 后 对 它们 实施 一 个 稀 玻 约束 。 因 此 ， 训 练 涉及 使 用 系数 约束 来 学 
习 数 据 的 稀 玻 表示 。 最 受 欢迎 的 稀 琉 约束 是 Kullback - Leibler (KL) 散 度 。 
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5.3.1 Kullback -Leibler 散 度 


Kullback - Leibler 散 度 是 测量 从 一 个 “真正 ”的 概率 分 布 到 一 个 “目标 ”的 伯 
努 利 随 机 变量 概率 分 布 的 距离 ， 设 “真正 ”的 概率 分 布 为 p»， 伯 努 利 随机 变量 为 
5,， 则 





Kp 15) =plos( 2 )+ C1-p)1oe (10) 
pi p; 


注意 : 当 p =4 时 ，KL | 14) =0 ,否则 下 是 正 值 。 

参数 p 是 稀 玻 参数 ， 通 常 被 设置 为 一 个 小 的 值 。 它 是 隐藏 结 点 的 激活 频率 ; 例 
如 ， 如 果 p =0.07， 神 经 元 j 的 平均 激活 是 7% 。 使 用 输入 属性 x, 和 a 定义 隐藏 层 神 
经 元 7 的 激活 值 ， 即 





j= FO [Las)] 


在 所 有 训练 样本 中 ， 参 数 % 是 隐藏 神经 元 7 的 平均 阅 值 激活 参数 。 为 了 计算 4， 
整个 训练 集 需要 向 前 传播 来 计算 所 有 单元 的 激活 值 。 其 次 是 随机 梯度 下 降 法 ， 使 用 
反 向 传播 。 相 对 于 标准 的 AE， 这 使 得 它 计算 费时 。 

对 于 单元 7 的 稀 琉 优化 目标 是 P = 少 ， 而 单元 7 是 最 小 化 重建 误差 平方 或 损失 函数 
时 通过 添加 下 面 的 稀 琉 约束 来 获得 的 : 

a > KLCP1 7) 

在 AE 损失 函数 中 ，a 是 一 个 超 函 数 ， 决定 了 稀 玻 项 的 相对 重要 性 。 一 般 来 说 ， 

AE 优化 目标 是 使 权重 最 小 化 ， 即 

arg minJ( W,b) =L(,x) 
式 中 , 工 是 一 个 损失 函数 ， 如 平方 误差 或 交 又 焙 ; 下 是 权重 ; b 是 偏 置 。SAE 优化 目 
标 是 














Jspane (W,b) = J(W,b) + a2, KL(p 1 5) 
可 以 看 到 SAE 优化 目标 多 了 一 个 稀 政 约束 项 。 


5.3.2 使 用 SAE 注意 事项 


1) 在 实际 中 使 用 SAE 网 络 开 发 的 应 用 比 使 用 标准 的 AE 开发 的 应 用 多 。 主 要 是 
因为 SAE 网 络 在 训练 期 间 可 以 学 习 更 多 种 类 的 模型 ， 根 据 激 活 函 数 ， 规 范 化 隐藏 单 
元 的 数量 和 性 质 。 

84 


2) 使 用 SAE 网 络 进行 分 类 的 另 一 个 理由 是 稀 琉 表示 的 特征 能 更 好 地 为 原始 输 
入 数据 编码 使 其 有 识别 能 力 。 

3) 如 果 隐 藏 层 神经 元 个 数 比 输入 层 神 经 元 个 数 多 ,标准 AE 学 习 的 是 恒 等 函 
数 ， 从 而 没有 从 输入 属性 中 提取 有 用 的 特征 。 


5.4 SAE 的 R 实现 


【 例 5.1】 建 立 一 个 SAE 模型 ， 压 缩 R -LOG 图 像 并 提取 隐 含 特征 。 
(1) 加 载 依 赖 的 包 和 数据 
> require( autoencoder) 
> require( ripa) 
autoencoder 包 包 含 需要 的 函数 来 建立 稀 琉 自 编码 网 络 。Ripa 包 包 含 一 个 R - 
LOG 图 像 ， 加 载 图 像 如 图 5. 6 所 示 。 


> data( logo) 











图 5.6 图 像 R-LOG 


查看 图 像 的 特征 : 


> logo 


size : 77 x 101 


type : grey 
这 是 一 个 灰 度 大 小 77 x 101 像素 的 图 像 。 
(2) 建 模 


首先 ， 复 制 这 张 图 像 并 赋值 给 x_train。 用 t( ) 转 置 图 像 来 使 得 它 适合 autoencoder 
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包 的 使 用 。 


>x_train <—t( logo) 








x_train 是 101 行 (样本 ) ，77 列 (属性 ) 的 灰 度 图 像 。 
现在 使 用 autoencoder 洱 数 建立 SAE 模型 。 


> set. seed( 2016) 


>fit <— autoencode( X. train = x_train, X. test = NULL, 


nl =3,N. hidden = 60,， 


unit. type = " logistic" 


lambda =le -5, 
beta=1e—5, 
rho =0. 3 ， 


epsilon =0. 1 ， 


max. iterations = 100 ， 


? 


optim. method = c(" BFGS" ) ， 


rel. tol =0. 01,， 


rescale. flag = TRUE, 


rescaling. offset =0. 001) 


第 二 行 表示 模型 将 保存 在 R 对 象 位 ; 并 将 x_train 里 的 图 像 数 据 传输 到 函数 中 。 
参数 nl 代表 层 数 被 设置 为 3。 使 用 逻辑 激活 函数 ， 隐 藏 结 点 数目 为 60。lambda 是 一 
个 权重 衰减 参数 ， 通 常设 置 为 一 个 较 小 的 值 ，beta 有 着 相同 的 值 ， 它 是 稀 玻 性 惩罚 
项 的 权重 。 稀 玲 度 设置 为 0.3 (rho) 并 按 正 态 分 布 N(0，epsilon2) 采样 。iterations 
的 最 大 值 设置 为 100。 注 意 : 
它 的 值 位 于 0 ~1 之 间 (logistic 激活 函数 ) 。 

















查看 人 t 相关 的 属性 : 
attributes( fit) 
$names 
[1]"W" 
[3]j"unit type " 
[Sj]"nl" 
[7]"N. input " 
[9 ]" mean. error. training. 





$6 





rescale. flag = true 统一 








im 





新 调节 训练 矩阵 x_train 此 


"rescaling " 
人 
"N，hidden " 


set" "mean. error. test. set" 


$class 


[1j"autoencoder " 
下 面 代码 查 看 训练 集 均值 误差 : 
>fit$mean. error. training . set 
[1]0.3489713 
(3) 模型 预测 
正如 看 到 的 ，SAE 经 常 对 提取 隐藏 结 点 的 特征 是 有 用 的 。 使 用 hidden. output = 
TRUE 实现 预测 。 
> features <— predict(fit, X. input =x_train,hidden. output = TRUE) 
由 于 隐藏 结 点 的 数目 设置 为 60， 属性 的 数目 为 77， 特 征 是 原始 图 像 的 紧凑 表 
示 ， 可 视 化 表示 为 图 5.7 所 示 。 


> image(t(features$X. output) ) 


转 置 函 数 t( ) 用 于 重新 定位 特征 来 匹配 图 5.7。 





0.2 li > 
| | 
0.0 出 n 


0.0 0.2 0.4 0.6 0.8 





图 5.7 从 全 提取 隐藏 结 点 的 特征 
注意 ,使 用 Nelder - Mead、 准 线性 牛顿 ( Quasi - Newton) 法 和 共 斩 梯度 算法 的 
Autoencoder 函数 在 数据 包 中 被 称 为 优化 函数 。 目 前 的 优化 方法 包括 
1)“BFGS” 是 一 种 拟 牛 顿 方法 ， 它 使 用 函数 值 和 梯度 来 建立 一 个 图 像 表 面 进行 
优化 。 
2)“CG” 是 一 个 共 圈 梯度 算法 ,通常 比 BFGS 方法 更 脆弱 。 它 的 主要 优点 是 运 
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行 时 不 需要 存储 大 量 的 矩阵 。 
3)“L-BFCS -B” 人 允许 每 个 变量 被 给 一 个 较 低 或 者 较 高 的 限制 。 
压缩 特征 如 何 捕获 原始 图 像 ” 使 用 hidden. out = FALSE 的 预测 函数 来 重建 值 。 


> pred <— predict(ft,X. input =x_train,hidden. output = FALSE ) 


均 方 误差 显得 相当 小 。 





> pred$mean. error 


[1 10.3503714 
重建 图 像 ( 见 图 5.8)， 表明 用 SAE 表示 原始 图 像 相 当 得 好 ! 


> recon <— pred$X. output 


> image(t( recon ) ) 











5.8 原始 标志 和 稀 玻 Autoencoder 重建 标志 
a) 原始 标志 b) 稀 朴 Autoencoder 重建 标志 
【 例 5.2】 用 SAE 和 R 执行 一 个 可 使 用 的 软体 动物 分 析 。 
通过 本 例 的 学 习 ， 思 考 如 何 把 使 用 的 方法 来 适应 自己 的 研究 。 
鲍鱼 、 海 洋 蜗 牛 、 蛤 、 肩 贝 、 海 参 、 章 鱼 和 鲍鱼 都 属于 一 类 海洋 生物 (软体 动 
物 ) 。 本 例 使 用 来 自 UCI 机 器 学 习 档 案 的 鲍鱼 数据 集 来 预测 鲍鱼 的 年 龄 (通过 壳 上 环 
数 ) ， 给 定 大 量 的 属性 ， 例 如 外 过 尺寸 (高度 、 长 度 、 宽 度 ) 和 重量 ( 壳 重 、 去 壳 
重量 、 脏 器 重量 、 整 个 重量 ) 。 下 面 代码 是 如 何 使 用 R 链接 到 数据 集 : 


> aburl = " http://archive. ics. uci. edu/ ml/ machine — learning — databases/abalo 


ne/abalone. data" 
使 用 read. table 加 载 数 据 并 存储 到 R 对 象 data。 
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TREE 
> data = read. table(aburl ,header = 了 ,sep =" ," ,col. names = names) 
使 用 summary 哨 数 来 考查 不 寻常 的 观测 数据 。 
> summary( data) 
SeX length diameter height whole. weight 
上 了 上: 1307 Min. : 0.075 Min. : 0.0550 Min. : 0. 0000 Min. : 0. 0020 
1: 1342 -1st Qu : 0.450 lst Qu. :0.3500 lstQu :0.1150 lst Qu  : 0.4415 
M: 1528 Median  : 0.545 Median  : 0.4250 Median  : 0.1400 Median  : 0.7995 
Mean : 0.524 Mean : 0.4079 Mean : 0. 1395 Mean : 0. 8287 
3rd Qu. : 0.61$ 3rd Qu. : 0.4800 3rd Qu. : 0.1650 3rd Qu. : 1.1530 
Max. : 0.815 Max. : 0.6500 Max. : 1.1300 Max. : 2. 8255 
shucked. weight viscera. weight shell. weight rings 
Min. : 0.0010 Min. : 0.0005 Min. : 0. 0015 Min. : 1. 000 
lstQu :0.1860 lstQu :0.0935 lstQu :0.1300 lst Qu :8.000 
Median  : 0.3360 Median  : 0.1710 Median  : 0.2340 Median  : 9.000 
Mean : 0.3594 Mean : 0.1806 Mean : 0.2388 Mean : 9.934 
3rd Qu. : 0.5020 3rd Qu : 0.2530 3rd Qu. : 0.3290 3rd Qu. : 11.000 
Max. : 1.4880 Max. : 0. 7600 Max. : 1.0050 Max. : 29. 000 
可 以 看 出 ， 忽 鱼 高 度 存在 问题 ， 一 些 蜗 高度 为 0 这 是 不 可 能 的 。 进 一 步 考 查 . 


>names =c("sex" ,"length" ,"diameter" ," height" ,"whole. weight" ， 











" shucked. weight" 








> data[ data$height = =0, | 


SeX 
1258 I 
3997 I 


shucked. weight 


1258 0. 2065 
3997 0. 0575 
显 














这 些 观 


length 
0.430 
0.315 


中 二 中 
," Viscera. weight" ， 





diameter height 
0. 34 0 
0. 23 0 


0. 0860 
0. 0285 


0. 1150 


0. 3505 











whole. weight 


0. 428 
0. 134 


viscera. weight shell. weight rings 


8 
6 








现 出 了 两 个 蜗牛 高 度 为 0 的 观测 数据 (样本 编号 为 1258 和 3997)。 需 要 删除 


测 样本 。 
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> data$height | data$height = =0] 


> data <— na. omit( data ) 


> data$sex <— NULL # 去 掉 性 别 列 


> summary( data) 








length diameter 
Min. : 0. 0750 Min. : 0. 0550 
lst Qu. : 0. 4500 lst Qu. : 0.3500 


Shucked. weight 











储 于 R 对 象 datal 。 
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Median :0.5450 Median  : 0.4250 
Mean : 0.5241 Mean : 0. 4079 
3rd Qu. : 0.6150 3rd Qu. : 0.4800 
Max. : 0.8150 Max. : 0.6500 


Viscera. weight 


Min. : 0.0010 Min. : 0. 0005 
st Qu :0.1862 lst Qu  : 0.0935 
Median :0.3360 Median  : 0.1710 
Mean :0.3595 Mean : 0.1807 
3rd Qu. : 0.5020 3rd Qu. : 0.2530 
Max. 1. 4880 ”Max. : 0.7600 


位 平 数据 都 是 合理 的 。 接 下 来 ， 转 换 数据 ， 将 它 转 换 为 一 个 矩阵 ， 并 将 名 


> datal <—t( data) 


> datal <—as. matrix( datal ) 


> require( autoencoder ) 


> set. seed( 2016) 


>n=nrow( data) 


>train <— sample(1:n,10,FALSE ) 


=NA 


height 
Min. : 0. 0100 
lst Qu. : 0.1150 
Median  : 0. 1400 
Mean : 0. 1390 
3rd Qu. : 0. 1650 
Max. : 1.1300 


Min. 
st Qu. 
Median 





Max. 


>fit <- autoencode(X. train = datal | ,train ] ， 


X.test=NULL， 


n=3 当 


N. hidden =5,， 


unit. type = " logistic" ， 


shell. weight 
; 0.0015 
: 0. 1300 
: 0.2340 
; 0. 2388 
: 0. 3287 


1. 0050 


# 隐 茂 层 结 点 个 数 


whole. weight 


Min. 

lst Qu: 
Median 
Mean 

3rd Qu. 
Max. 
rings 
Min. 

lst Qu. 
Median 





: 0. 
: 0. 
: 0. 
: 0. 
: 1. 


: 8. 
: 9. 
: 9. 


0020 
4422 
8000 
8290 
1535 


. 8255 


. 000 


000 
000 
935 


: 11.000 
: 29. 000 

















者 果 存 


lambda =le -5， 

beta =le -5 ， 

rho =0. 07 ， 

epsilon =0. 1 ， 

max. iterations = 100 ， 

optim. method = c(" BFGS" ) ， 
rel. tol =0. 01 ， 

rescale. flag = TRUE, 


rescaling . offset =0. 001) 
注意 : 有 5 个 隐藏 结 点 的 模型 和 一 个 稀 玻 参数 为 7% 。 一 旦 模型 被 优化 ， 均 方 误 
差 小 于 2% 。 
> fit$mean. error. training. set 
[1]0. 01654644 
通过 设置 nidden. output = TRUE 。 由 于 隐藏 结 点 的 数目 少 于 特征 数目 ，feature$ 
X. output 输出 降 维 数据 : 





> features <— predict(fit, X. input = datal [ ,train | ,hidden . output = TRUE ) 


> features $X. output 


[, 1] | , 2] [|, 3] [a [, 5] 


length 6.572353e -01 7.459814e -01 4.025650e -01 5.306412e -01 6.325756e -01 
diameter 7. 149880e -01 7.90779Se -01 4.67098le -01 5.89976le -01 6.929413e -01 
height 8. 11983le -01 8.62811le-01 5.980132e -01 7.009932e -01 7.950291le -01 
whole. weight 4.901213e -01 6.072550e -01 2.545919e -01 3.770476e -01 4.642603e—01 
shucked. weight 7.437931le -01 8.128396e -01 5.023596e -01 6.20561Se -01 7.235000e -01 
viscera. weight 7.893552e -01 8.464983e -01 5.645063e -01 6.734824e -01 7.718709e -01 
shell. weight 7.721268e -01 8.337987e -01 5.403436e -01 6.532020e -01 7.53496le—01 
rings 1.85543Se -09 1.03828Se—08 1.111354e -09 9.02351Se -09 1.471309e -09 

















使 用 predict 函数 重 构 并 存储 结果 到 R 对 象 pred。 





> pred <— predict( fit, X. input = datal [ ,train | , hidden. output = FALSE) 


图 5.9、 图 5.10 和 图 5.11 使 用 雷达 图 可 视 化 重建 的 值 。 


[ET 
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观测 物 1 观测 物 2 
length length 






diameter 一 ey diameter.” 


height 





whole.weight whole.Wei ght viscera.weight 





shucked.weight 一 一 观测 值 shucked weight 一 一 观测 值 
一 重 构 值 一 重 构 值 
观测 物 3 观测 物 4 


length length 






diameter .~ 





whole. weight viscgra .weight whole.Weight 2 Ee viscera.weight 
shucked. weight 一 一 观测 值 shucked weight = 观测 值 
一 重 构 值 一 重 构 值 





图 5.9 ”对 于 观测 物 1 ~4 所 观测 和 重 构 的 值 


观测 物 5 观测 物 6 


length length 










diameter- “rings diameter- 


height + ~ el]. weig height} ll.weig 





whole weieht ee visodra weight wholewgieht viscera.weight 
shuoked woeight 一 观测 值 shuoked. weight 一 观测 什 
一 重 构 值 一 重 构 值 
图 5.10 观测 物 5 ~8 所 观测 和 重 构 的 值 
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观测 物 7 观测 物 8 


length length 












diameter.” 






height ! 


Viscera.Weight whole.weight 

















whole.wéight 
shucied weight 一 观测 导 shucked weight 一 一 观测 值 
< 重 构 号 。 重 构 值 
图 5. 10 ”观测 物 5 ~8 所 观测 和 重 构 的 值 ( 续 ) 
观测 物 9 观测 物 10 
length length 
diameter diameter _ Tings 


height 六 shell.weig height ; 


whole.weight Viscera.weight whole.weight viscera.weight 


shucked.weight 观 测 值 shucked.weight 观测 值 


重 构 值 一 重 构 值 





5.11 观测 物 9 ~ 10 所 观测 和 重 构 的 值 


整体 重建 的 值 提供 了 一 个 原始 值 的 合理 表达 。 注 意 ， 观 测 样本 5 拟 合 程度 不 
如 样本 6; 进一步 考查 图 5. 12 所 示 的 柱状 图 ， 图 中 显示 了 重建 值 和 观测 值 之 间 的 
差异 。 重 建 值 在 所 有 八 个 维度 (属性) under -人 it 观测 值 。 在 观测 样本 5 最 明显 的 
是 环 ， 重建 环 的 值 为 1.4， 相 对 所 观测 到 的 值 为 3. 5。 观 测 样 本 6 观测 到 一 个 类 似 
的 模式 。 
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观测 物 5 





vO 
号 -0.5 
| 
上 
3 
= 
2 -1.0] 
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图 5.12 ”观测 物 5、6 的 柱状 图 





大 多 数 介绍 机 器 学 习 课 程 倾向 于 在 前 馈 神经 网 络 停 止 了 。 其 实 可 拓展 的 空间 还 














一 个 AE 通常 是 一 个 前 馈 神经 网 络 ， 目 的 是 学 习 一 个 压缩 、 分 布 式 的 数据 集 表 示 


(编码 ) 。 





从 概念 上 讲 ，AE 网 络 被 训练 为 输入 的 “再 现 ”， 输 入 和 目标 数据 是 相同 的 。 
AF 网 络 有 多 种 变 体 : 








Sparse AE( 稀 下 C 


自 编 码 带 ) 








Denoising AE( 降 


保 自 编码 器 ) 














Regularized AE( 正 则 自 编码 需 ) 




















Contractive AE( 具有 惩罚 项 的 AE) 
Marginalized DAE( 边 际 降 噪 自 编码 器 ) 
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第 6 章 ”堆栈 自 编 码 网 络 SA 


有 了 AE 的 基本 概念 ， 可 以 利用 AE 来 构建 深度 网 络 ， 近 些 年 的 一 系列 研究 表明 
构建 深度 网 络 对 于 解决 很 多 的 计算 机 视觉 问题 具有 重要 意义 ， 并 能 比 现 有 的 一 些 常 





规 方法 取得 更 好 的 效果 。 








堆栈 自 编码 (Stacked Autoencoder，SA) 网 络 , 或 层 芭 自 编码 网 络 就 是 一 种 利用 








AE 来 构建 深度 网 络 的 一 种 策略 。 深 度 网 络 的 每 一 层 都 是 一 个 编码 器 ， 在 这 个 编码 器 
中 ， 每 一 层 的 输出 连接 到 下 一 层 的 输入 。 为 了 紧凑 地 表示 ， 中 间 层 中 单元 的 数量 往 





往 变 得 越 来 越 小 。 














图 6. 1 是 出 自 Jirayucharoensak 等 发 表 论文 的 SA 网 络 ， 它 是 拥有 两 个 隐藏 层 的 二 

分 类 堆栈 自 编码 网 络 。 在 这 个 例子 里 ， 向 堆栈 自 编 码 网 络 中 输入 四 个 属性 x 、x,、 
x3、Xao 中 心 带 有 +1 标志 的 结 点 表示 偏 置 (Bias) 。 属 性 数据 穿 过 两 个 隐藏 层 ， 每 
个 隐 含 层 含 有 三 个 结 点 。 输 出 层 由 一 个 Softmax 激活 函数 构成 ， 激 活 函 数 将 计算 出 
该 输出 属于 某 一 具体 类 的 概率 ( 此 案例 中 为 0 或 1)。 注 意 ， 分 类 时 ， 通 常 Softmax 











层 中 每 一 类 只 有 一 个 输出 结 点 。 














第 1 隐藏 层 ”第 2 隐藏 层 








图 6.1 拥有 两 个 隐藏 








层 的 二 分 


Softmax 层 





时 堆栈 自 编码 网 络 
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6.1 SA 原理 


(1) 逐 层 训练 

图 6. 1 第 一 层 得 到 一 个 特征 ， 如 果 重 构 误 差 小 于 给 定 的 阐 值 ， 可 以 确定 这 个 特 
征 就 是 原 输入 信号 的 良好 表达 ,或 者 牵强 点 说 ， 它 和 原 信 号 是 一 模 一 样 的 (表达 不 
一 样 ， 反 映 的 是 一 个 东西 ) 。 那 第 二 层 和 第 一 层 的 训练 方式 就 没有 差别 了 ， 将 第 一 层 
输出 的 特征 当成 第 二 层 的 输入 信和 号， 同样 最 小 化 重 构 误 差 ， 就 会 得 到 第 二 层 的 参数 ， 
并 且 得 到 第 二 层 输 入 的 特征 ， 也 就 是 原 输 入 信息 的 第 二 个 表达 ( 见 图 6.2) 。 其 他 层 
采用 同样 的 方法 〈 训 练 这 一 层 ， 前 面 层 的 参数 都 是 固定 的 ， 并 且 解 码 器 已 经 没 用 了 ， 
都 不 需要 了 ) 。 











图 6.2” 逐 层 训 练 过 程 











(2) 微调 

经 过 逐 层 训 练 ， 需 要 自己 调试 这 个 网 络 。 每 一 层 都 会 得 到 原始 输入 的 不 同 表 达 。 
当然 ， 越 抽象 〈( 层 数 越 多 ) 越 好 ， 就 像 人 的 视觉 系统 一 样 。 

到 这 里 ， 这 个 SA 还 不 能 用 来 分 类 数据 ， 因 为 它 还 没有 学 习 如 何 去 联 结 一 个 输入 
和 一 个 类 。 它 只 是 学 会 了 如 何 去 重 构 或 者 复 现 它 的 输入 而 已 。 或 者 说 ， 它 只 是 学 习 
获得 了 一 个 可 以 良好 代表 输入 的 特征 ， 这 个 特征 可 以 最 大 程度 上 代表 原 输入 信号 。 
那么 ， 为 了 实现 分 类 ， 可 以 在 AE 的 最 项 的 编码 层 添加 一 个 分 类 器 (例如 Logist 回 
归 、SVM 等 )， 然 后 通过 标准 的 多 层 神经 网 络 的 监督 训练 方法 (梯度 下 降 法 ) 去 
训练 。 

也 就 是 说 ， 这 时 候 ， 需 要 将 最 后 层 的 特征 输入 到 最 后 的 分 类 器 ， 通 过 有 标签 
样本 和 监督 学 习 进 行 微调 ， 这 也 分 两 种 ， 一 种 是 只 调整 分 类 器 (黑色 部 分 ， 见 
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图 6.3) ; 另 一 种 通过 有 标签 样本 ， 微 调整 个 系统 〈 如 果 有 足够 多 的 数据 ， 这 个 是 
最 好 的 ) 。 











~ 


实际 值 








图 6.3 ”微调 过 程 








一 旦 有 监督 训练 完成 ， 这 个 网 络 就 可 以 用 来 分 类 了 。 神 经 网 络 的 最 顶层 可 以 作 
为 一 个 线性 分 类 器 ， 然 后 用 一 个 更 好 性 能 的 分 类 带 去 取代 它 。 

在 研究 中 可 以 发 现 ， 如 果 在 原 有 的 特征 中 加 入 这 些 自动 学 习 得 到 的 特征 可 以 大 
大 提高 精确 度 ， 甚 至 在 分 类 问题 中 比 目 前 最 好 的 分 类 算法 效果 还 要 好 ! 

在 上 述 的 堆栈 自 编 码 网 络 用 于 传统 训练 方法 的 流程 的 时 候 ， 一 些 研究 人 员 对 预 
训练 这 一 步 的 必要 性 提出 了 疑问 。 但 实验 告诉 我 们 预 训练 是 最 好 的 建议 。 








6.2 SA 的 R 实现 


【 例 6.1】 使 用 SAENET 包 的 SAENET. train 函数 对 SA 模型 进行 评估 。 
(1) 加 载 所 需 包 和 数据 


> require( SAENET) 
> aburl + http://archive. ics. uci edu/ ml/machine ~ learning - databases/ abalo 
ne /abalone. data 
> names = cl sek ', length ', diametet ', height ', whole. weight ， 
' shucked. weight ', viscera. weight ', shell. weight ', rings ) 


> data = read. table( aburl ,header =F,sep +', ,col. names = names) 
(2) 数据 准备 
去 掉 性 别 属性 ， 删 除 编码 出 错 率 高 的 观测 值 ， 并 且 将 结果 样本 存储 为 R 中 矩阵 
对 象 datal 。 








> data$sex <= NULL # 去 掉 性 别 属性 
> data$height[ data$ height ==0 | = NA 
> data <= na. omit( data) 


> datal <= as. matrix( data) 
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为 了 说 明 问 题 ， 只 抽取 10 个 观测 值 。 


> set. seed( 2016) 
>n=nrow( data) 


>train <= sample(1:n,10,FALSE) 
此 时 ， 对 模型 的 评估 已 准备 就 绪 。 在 这 个 例子 中 ,设计 3 个 隐藏 层 ， 且 结 点 数 
分 别 为 5、4、2 的 模型 | n. nodes =c(5,4,2)}。 余 下 的 代码 把 模型 存储 到 R 中 位 
对 象 。 





>fit <=SAENET. train( X. train = datal [ train , ] ， 
n. nodes =c(5,4,2), 

unit type = " logistic" ， 
lambda =1e -5, 

beta =le -5, 

rho =0. 07 ， 

epsilon =0. 1 ， 

max. iterations = 100 ， 

optim. method = c(" BFGS" ) ， 
rel. tol =0. 01 ， 

rescale. flag =TRUE， 


rescaling. offset = 0. 001 ) 








每 一 层 的 输出 可 以 通过 输入 fit[ [n] ]$X. output 来 查看 ， 这 里 n 是 感 兴趣 的 层 
(the Layer of Interest) 。 例 如 ， 查 看 第 三 层 的 两 个 结 点 的 输出 : 








>fit[ [3] ] $X. output 
[ ,1] [ ,2] 


753 0.4837342 0.4885643 
597 0.4837314 0.4885684 
3514 0.4837309 0.4885684 
558 0.4837333 0.4885653 
1993 0.4837282 0.4885726 
506 0.4837351 0.4885621 
2572 0.4837315S 0.4885684 
3713 0.4837321 0.4885674 
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ll 0.4837346 0.4885632 
223 0.4837310 0.4885684 


图 6. 4 绘制 了 观测 的 输出 值 ， 为 了 清晰 起 见 ， 将 第 753 项 标注 为 观测 值 1， 第 
597 项 标注 为 观测 值 2,…， 第 223 项 标注 为 观测 值 10。 
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图 6.4 第 三 层 特性 的 可 视 化 表示 





6.3 降 噪 自 编码 网 络 DAE 








降 噪 自动 编码 (Denoising AutoEncoders，DAE) 网 络 是 在 自动 编码 网 络 的 基础 
上 ， 对 训练 数据 加 入 噪声 ,是 AE 的 变 体 ， 所 以 自动 编码 网 络 必 须 学 习 去 除 这 种 噪声 
而 获得 真正 的 没有 被 噪声 污染 过 的 输入 。 因 此 ， 这 就 迫使 编码 器 去 学 习 对 输入 信号 
更 加 和 鲁 棱 的 表达 ， 这 也 是 它 的 泛 化 能 力 比 一 般 编 码 器 强 的 原因 。DAE 可 以 通过 梯度 
下 降 算 法 训练 。 其 结构 如 图 6. 5 所 示 。 

本 节 的 降 噪 自 编码 网 络 与 传统 的 降 噪 自 编码 网 络 的 区 别 是 ， 所 添加 的 噪声 可 以 
预防 隐藏 层 对 恒 等 函 数 简单 地 学 习 ， 强 制 它 发 掘 更 好 的 特性 。 
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隐 含 特征 散 度 








噪声 原始 输入 重 构 值 








图 6.5 降 品 自 动 编码 网 络 结构 











6.3.1 随机 掩 巩 的 椒盐 噪声 








给 定 输入 属性 x， 降 品 自 编码 网 络 会 产生 一 个 新 的 “ 嗜 杂 ”的 属性 向 量 z。 虽 然 
有 很 多 方法 引入 噪声 ， 其 中 最 常用 的 是 随机 掩蔽 。 在 随机 掩蔽 方法 中 ， 输 入 是 随机 
的 ， 一 般 设 定 为 0。 注意 ， 这 一 想法 本 质 是 在 每 轮 的 训练 中 随机 地 忽略 一 些 神 经 元 
其 性 能 提高 明显 。 通 常 把 随机 强制 将 x 的 一 小 部 分 转化 成 0 或 1 称 为 附加 椒盐 噪声 
的 变 体 ; 另 一 种 常用 方法 是 向 属性 向 量 x 附加 高 斯 噪声 。 不 管 使 用 哪 种 噪声 方法 ， 
接 下 来 都 要 训练 降 噪 自 编码 网 络 ， 重 建 来 自 不 同 噪声 版 本 的 输入 属性 。 


















































6.3.2 DAE 基本 任务 


降 噪 自 编码 网 络 有 两 个 基本 任务 : 

1) 对 输入 属性 向 量 x 进行 编码 。 

2) 去 除 噪声 属性 向 量 x* 内 的 错误 所 造成 的 影响 。 

只 要 降 品 自 编 码 网 络 捕获 输入 属性 之 间 的 统计 特征 依赖 ， 这 些 任务 就 能 成 功 完 
成 。 在 实践 中 ， 一 个 降 噪 自 编码 网 络 通常 会 比 标准 自 编码 网 络 获得 更 好 的 输入 属性 
表示 方法 。 




















6. 3.3 ”标准 化 堆栈 降 噪 自 编码 网 络 





降 品 自 编码 网 络 可 以 通过 堆栈 形成 深度 学 习 网 络 。 图 6. 6 展示 了 一 个 有 4 个 隐 
藏 层 的 堆栈 降 品 自 编码 网 络 (SDA)。 

如 堆栈 自 编码 网 络 一 样 ， 在 堆栈 降 噪 自 编 码 网 络 中 ， 一 次 只 在 一 层 用 同样 的 方 
式 进 行 预 训练 。 在 反 向 传播 阶段 ， 预 训练 经 常 激励 网 络 去 发 气 更 好 的 参数 空间 ， 随 
时 间 推 移 ， 这 一 现象 会 变 得 更 加 清晰 。 
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预 训练 --- 关 预 训练 --- 关 预 训 练 --- 关 预 训练 
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图 6.6 由 4 个 隐藏 层 构造 的 堆栈 降 噪 自 编码 网 络 


在 预 训练 阶段 ， 通 过 最 小 化 重建 的 错误 来 将 每 一 层 训练 成 一 个 降 噪 自 编码 网 络 。 
对 于 每 一 层 来 说 ， 用 将 要 输入 到 下 一 个 隐藏 层 的 权重 表示 提取 的 特征 。 在 最 后 一 个 
预 训练 之 后 ， 通 常用 Softmax 激励 函数 将 结果 问 量 传递 到 输出 层 来 对 最 后 一 个 隐藏 层 
进行 分 类 。 

一 旦 所 有 的 层 都 进行 了 预 训 练 ， 网 络 就 进入 第 二 阶段 的 训练 ， 即 有 监督 的 学 习 ， 
通常 称 为 微调 。 在 这 一 阶段 ， 通 过 反 向 传播 ， 将 整个 网 络 像 训 练 所 得 的 多 层 感 知 器 
那样 最 小 化 预测 错误 。 

堆栈 降 噪 自 编码 网 络 似乎 提高 了 网 络 的 表示 能 力 。 添 加 的 层 数 越 多 ， 特 征 提取 
得 就 越 抽 象 。 


























6.4 DAE 的 R 实现 


作为 对 孟加拉 国 妇女 生育 率 定 期 调查 的 一 部 分 ，Huq 和 Cleland 收集 了 社会 自由 
流动 性 数据 。 他 们 对 8445 名 农村 妇女 是 否 可 以 单独 从 事 某 些 活动 进行 了 问卷 调查 
( 见 表 6.1)。 








表 6.1 妇女 的 社会 自由 流动 性 所 使 用 的 变量 

















项 目 编 号 内 容 





1 去 过 村 里 任何 地 方 
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( 续 ) 






































项 目 编号 内 容 
3 与 陌生 男人 谈话 
4 去 影院 看 电影 或 剧院 看 戏 
5 购物 
6 去 过 母亲 俱乐部 
了 出 席 政治 会 议 
8 去 过 健康 中 心 或 医院 





【 例 6.2】 使 用 这 个 示例 数据 构建 自 编码 网 络 。 
(1) 加 载 依 赖 的 包 和 数据 


> require( ReppDL) 
> require( " ltm" ) 
> data( Mobility ) 
> data <= Mobility 
(2) 数据 准备 
从 8445 个 样本 中 不 重复 抽取 了 1000 个 样本 观测 值 。 其 中 800 个 观测 值 用 作 训 练 
集 ， 剩 下 200 个 观测 值 用 作 测 试 集 。 


> set. seed(17) 

>n=nrow( data) 

> sample <= sample(1:n,1000,FALSE) 
> data <= as. matrix( Mobility[ sample, ] ) 
>n=nrow( data) 


>train <= sample(1:n,800,FALSE) 
创建 训练 样本 和 测试 样本 代码 如 下 : 


>x_train <= matrix(as. numeric( unlist( datal train, | ) ) ,nrow = nrow( datal train, | ) ) 


>x_test <= matrix(as. numeric(unlist( datal -train, | ) ) ,nrow =mnrow(datal — train, | )) 


需要 进行 检查 以 确保 有 正确 的 样本 容量 。 训 练 集 应 该 为 800 个 观测 值 ， 测 试 集 
应 该 有 200 个 观测 值 。 
>nrow(x_train) 
[1] 800 
702 


>nrow(x_test) 
[1] 200 
所 有 这 些 看 起 来 都 还 不 错 。 现 在 把 原来 的 响应 变量 从 属性 R 对 象 中 删除 。 在 这 
个 例子 中 ,将 Item3 (与 一 个 不 了 解 的 男人 说 话 ) 作为 响应 变量 。 下 面 代码 示例 怎样 














属性 对 象 中 删除 : 





将 Item3 从 


>x_ train <=x_train| , -3] 


>x test <=x_test[ , —3] 


(3) 建 模 
接 下 来 使 用 ReppDL 包 中 的 Rsda 函数 构造 降 噪 自 编码 网 络 。 需 要 用 两 个 响应 变 


三 
用 


首先 为 训练 样本 创建 响应 变量 。 


>y_train <= datal train,3 ] 





三 | 
里 o 





> temp <= ifelse(y_ train ==0,1,0) 


>y_ train <= chbind(y_train,temp) 
对 于 测试 样本 ,遵循 相同 的 程序 。 


>y_test <= datal — train,3] 
> templ <= ifelse(y_test ==0,1,0) 


>y_test <= cbind(y_test,templ ) 


现在 来 详细 说 明 模 型 。 以 上 构造 了 一 个 没有 任何 噪声 的 堆栈 自 编码 网 络 ， 两 个 


隐藏 层 ， 每 层 包含 10 个 结 点 。 





>hidden =c(10,10) 
>fit <= Rsda(x_train,y_train, hidden) 


Rsda 默认 的 噪声 等 级 是 30% 。 因 为 是 从 一 个 常规 的 堆栈 自 编 码 网 络 开始 的 ， 所 











以 将 噪声 设置 为 0。 
> setCorruptionLevel( fit,x=0.0) 
注意 : 可 以 在 Rsda 包 中 设置 很 多 参数 。 


> setCorruptionLevel( model ,x) 


也 可 以 为 微调 和 预 训练 阶段 选择 样本 数量 和 学 习 率 。 
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setFinetuneEpochs 


setFinetuneLearningRate 
setPretrainLearningRate 


setPretrainEpochs 
预 训 练 和 微调 模型 相当 简单 。 


> pretrain( fit) 


> finetune( fit) 
(4) 模型 部 署 
因为 样本 很 小 ， 所 以 模型 收敛 很 快 。 可 以 使 用 测试 样本 来 看 看 对 响应 变量 预测 
的 概率 。 





> predProb <= predict(fit,x_test) 
> head(predProb ,6 ) 

[ ,1 [ ,2] 
[1,] 0.4481689 0. 5518311 
[2,] 0.4481689 0. 5518311 
[3,] 0.4481689 0. 5518311 
[4,] 0.6124651 0. 3875349 








3 
4 
[5,] 0.4481689 0. 5518311 
[6,] 0.8310412 0. 1689588 








观察 到 模型 预测 的 前 三 个 观测 值 中 有 45% 属于 1 类，55% 属 于 2 类。 来 看 看 它 
是 怎样 实现 的 。 





>head(y_test,3) 


y_test templ 


3954 1 0 
1579 0 1 
7000 0 1 


虽然 第 一 个 观测 错过 了 ! 然而， 第 二 个 和 第 三 个 观测 值 正在 被 正确 地 分 类 。 最 
后 ,构建 混淆 矩阵 。 
> predl <= ifelse( predProb| ,1 | >=0.5,1,0) 
>table( predl,y_test[ ,1 | ,dnn =c("Predicted" ," Observed " )) 


Observed 
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Predicted 0 1 


0 15 15 
1 36 134 
接 下 来 ,重建 模型 。 这 一 次 添加 25% 的 噪声 。 





> setCorruptionLevel( fit,x =0. 25) 
> pretrain( fit) 
>finetune( fit) 
> predProb <= predict( fit ,x_test ) 
> predl <= ifelse( predProb[ ,1] >=0.5,1,0) 
> table( predl,y_test[ ,1 | ,dnn =c("Predicted" ," Observed" ) ) 
Observed 
Predicted 0 1 
0 lS 15 
1 36 134 


这 个 混合 矩阵 与 没有 任何 噪声 的 堆栈 自 编 码 网 络 的 一 样 。 所 以 ， 在 这 种 情况 下 
添加 噪声 没有 多 少 好 处 。 


6.5 学 习 指 南 


有 过 深度 学 习 基 础 的 读者 想必 了 解 ， 深 层 网 络 的 威力 在 于 其 能 够 逐 层 地 学 习 原 
始 数据 的 多 种 表达 。 每 一 层 的 表达 都 以 低 一 层 的 表达 为 基础 ， 但 往往 更 抽象 ， 更 加 
适合 复杂 的 分 类 等 任务 。 

堆栈 自 编 码 絮 实际 上 就 在 做 这 样 的 事情 ， 如 前 所 述 ， 单 个 自 编码 右 通 过 虚构 x 一 
hh 一 x 的 三 层 网 络 ， 能 够 学 习 出 一 种 特征 变化 有 =f,(x) (这 里 用 0 表示 变换 的 参数 ， 
包括 WW 、5 和 激活 函数 ) 。 实 际 上 ， 当 训练 结束 后 ， 输 出 层 已 经 没什么 意义 了 , 一般 
将 其 去 掉 ， 即 将 自 编码 带 表 示 为 














h 





数据 作为 假想 的 目标 输出 ， 以 此 构建 监督 误差 来 训练 整个 网 络 。 等 训练 结束 后 ， 输 
出 层 就 可 以 去 掉 了 ， 只 关心 是 从 x 到 的 变换 。 
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接 下 来 的 思路 就 很 自然 了 一 一 对 已 经 得 到 的 特征 表达 有 及， 当 作 新 的 原始 信息 ， 再 
训练 一 个 新 的 自 编码 器 ， 得 到 新 的 特征 表达 。 这 就 是 所 谓 的 堆栈 自 编码 器 ( Stacked 
Auto encoder，SA) 。Stacked 就 是 逐 层 人 垒 琶 的 意思 ， 跟 “ 栈 ” 有 点 像 。UFLDL 教程 将 
其 翻译 为 “ 栈 式 自 编码 ”， 不 管 怎 么 称呼 ， 意 思 是 一 样 的 。 当 把 多 个 自 编码 器 Stack 
起 来 之 后 ， 这 个 系统 看 起 来 就 像 这 样 ; 


x h ha hn-1 


—— 
这 个 系统 实际 上 已 经 有 点 深度 学 习 的 味道 了 。 需 要 注意 的 是 ， 整 个 网 络 的 训练 
不 是 一 跳 而 就 的 ， 而 是 逐 层 进行 。 按 上 面 提 到 的 结构 n，m，, kk， 实际 上 是 先 训 练 网 
络 nm n， 得 到 nm 的 变换 ， 然 后 再 训练 m 一 hk 一 m， 得 到 m 一 > 的 变换 。 最 终 堆 
钱 成 SA， 即 为 nm 一 上 的 结果 ， 整 个 过 程 就 像 一 层 层 往 上 羡 房 子 ， 这 便 是 知名 的 
Layer - wise Unsuperwised Pre - training ( 逐 层 非 监 督 预 训练 ) ， 这 正 是 导致 深度 学 习 
在 2006 年 第 3 次 兴起 的 核心 思想 。 
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第 7 前 受 限 玻 耳 兹 曼 机 RBM 





RBM 是 玻 耳 效 曼 机 ( Boltzmann Machine，BM) 的 一 种 特殊 拓扑 结构 。BM 的 原 
理 起 源 于 统计 物理 学 ， 是 一 种 基于 能 量 函 数 的 建 模 方法 ,能 够 描述 变量 之 间 的 高 阶 
相互 作用 。BM 的 学 习 算 法 较 复杂 ,但 所 建 模型 和 学 习 算法 有 比较 完备 的 物理 解释 和 
严格 的 数理 统计 理论 作 基 础 。BM 是 一 种 对 称 耦合 的 随机 反馈 型 二 值 单元 神经 网 络 ， 
由 可 见 层 和 多 个 隐 层 组 成 ， 网 络 结 点 分 为 可 见 单元 和 隐 单 元 ， 用 可 见 单元 和 隐 单 元 
来 表达 随机 网 络 与 随机 环境 的 学 习 模 型 ， 通 过 权 值 表 达 单 元 之 间 的 相关 性 。 

受 限 玻 耳 效 曼 机 (Restricted Boltzmann Machine，RBM) 是 一 种 无 监督 学 习 模 型 ， 
近似 于 样本 数据 的 概率 密度 函数 。 名 字 中 “ 受 限 ” 一 词 指 的 是 相同 层 的 单元 之 间 没 
有 连接 。 模 型 的 参数 由 样本 的 最 大 化 似 然 画 数学 习 得 到 。 因 为 它 是 用 来 逼近 概率 密 
度 函 数 的 ， 所 以 在 研究 领域 通常 称 为 生成 模型 。 生 成 模型 需要 猜测 原始 输入 的 概率 
分 布 ， 以 便于 能 够 重建 它 。 












































7.1 RBM 原理 


7.1.1 玻 耳 兹 曼 机 的 四 类 知识 


图 7.1 展示 了 受 限 玻 耳 效 曼 机 的 几何 表示 。 它 由 两 层 构成 ， 在 这 两 层 中 有 很 多 
与 内 层 连接 的 单元 。 层 之 间 的 连接 是 对 称 和 双向 的 ， 这 允许 两 个 方向 传递 信息 。 它 
有 一 个 包含 3 个 结 点 的 可 见 层 和 一 个 包含 4 个 结 点 的 隐藏 展 ， 可 见 结 点 与 输入 属 
有 关 ， 因 此 对 可 见 层 的 每 个 单元 来 说 相关 属性 的 值 是 可 观测 的 。 

为 说 明 受 限 玻 耳 效 曼 机 工作 原理 ， 下 面 考虑 所 有 结 点 〈 神 经 元 ) 是 二 进 制 的 党 
用 情况 。 这 种 情况 下 理解 玻 耳 效 曼 机 需要 四 类 知识 : 

1) 可 见 结 点 的 取 值 为 w =0 或 w=1。 

2) 每 个 结 点 都 是 一 个 处 理 输 入 的 计算 轨迹 ， 并 随机 决定 传递 哪个 输入 。 














度 
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图 7.1 受 限 玻 耳 效 曼 机 的 几何 表示 


3) 隐藏 单元 用 于 增加 模型 的 可 表达 性 和 容纳 h, =0 或 hh =1 的 二 进 制 单元 。 
4) 对 于 隐藏 层 中 的 每 个 单元 或 结 点 相应 的 值 是 不 可 观测 的 ， 需 要 推断 。 





7.1.2 能 量 和 概率 的 作用 








受 限 玻 耳 效 曼 机 是 一 个 基于 能 量 的 概率 模型 ， 这 就 意味 着 可 见 层 和 隐藏 层 单元 
的 具体 配置 的 概率 与 能 量 函 数 E(v,h) 的 负 竹 次 方 成 正比 。 对 于 每 一 组 可 见 向 量 和 不 





可 见 向 量 来 说 ， 这 组 (,h) 的 概率 定义 为 P(v,h) = 过 exp( -名 (v,h))， 其 中 分 母 2 
是 标准 化 常数 ， 称 为 赋值 函数 。 

对 成 对 的 可 见 和 隐藏 变量 求 和 的 赋值 函数 计算 如 下 : Z= > > exp( - E(w,h))， 
因此 ， 它 是 P(w,h) 对 所 有 wv 和 定义 的 一 个 概率 分 布 。 

注解 ; 

一 个 由 两 部 分 构成 的 结构 或 图 是 对 一 组 结 点 的 数学 表示 ， 这 些 结 点 只 能 是 两 种 
颜色 中 的 一 种 ， 并 用 线 ( 边 ) 连接 结 点 (顶点 ) ， 以 至 于 不 会 出 现 一 条 线 连接 两 个 
同 种 颜色 的 结 点 。 图 7. 2 举例 说 明了 这 一 点 。 

在 受 限 玻 耳 兹 曼 机 中 ， 这 种 由 隐 含 层 和 可 见 层 结 点 两 部 分 构成 的 结构 图 如 图 7.1 
所 示 。 

因为 一 个 受 限 玻 耳 效 曼 机 内 没有 层 内 连接 ， 所 以 定义 由 两 部 分 构成 的 联合 配置 





(w,h) 的 能 量 如 下 ; 就， 人 = 一 》 > wvih -> vibi -hd; ， 这 里 由 是 与 w 和 用 之 
间 的 连接 相关 的 权重 。 直 观 地 说 ， 权 重 确定 结 点 的 相关 性 。 大 的 权重 意味 着 连接 的 
结 点 一 致 的 可 能 性 大 。 参 数 ,和 d, 是 隐藏 层 的 第 j 个 结 点 和 第 i 个 可 见 层 结 点 的 相对 


偏 置 ， m 和 nn 是 可 见 层 和 隐藏 层 的 结 点 数 。 
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图 7.2 由 两 部 分 构成 的 结构 


7.1.3 联合 概率 分 布 表示 的 自 编码 网 络 


另 一 种 对 受 限 臻 耳 效 曼 机 启发 的 是 可 见 层 结 点 和 隐藏 层 结 点 的 联合 概率 分 布 的 
参数 模型 。 它 是 一 种 用 于 学 习 一 组 数据 的 联合 概率 分 布 表示 (编码 ) 的 自 编码 网 络 。 
由 于 受 限 玻 耳 效 曼 机 的 隐藏 展 单 元 只 与 它们 外 面 可 见 层 连 接 ， 所 以 隐藏 层 与 可 见 层 
是 相互 独立 的 。 同 层 神经 元 相互 独立 是 一 种 很 好 的 性 质 ， 因 为 它 允许 在 给 定 可 见 层 
单元 的 条 件 下 ， 对 隐藏 层 单元 的 条 件 分 布 P41v) = [] P(h1v) 进行 如 下 因 式 
分 解 : 








P(h=1 1v)= [| sigmoid ( 2, wivdit d; ) 


/ 


可 见 层 单元 的 条 件 分 布 P(v 1h) = | | Pw 1h) 可 以 用 分 解 的 因 式 乘积 来 表示 ; 





Plw=1 1h) =T]sigmoid ( wtb ) 
在 训练 受 限 玻 耳 效 曼 机 时 ， 这 些 条 件 概 率 对 于 隐 含 层 和 可 见 层 之 间 的 迭代 更 新 
非常 重要 。 在 实践 中 ,2 的 计算 非常 困难 ， 因 此 联合 概率 分 布 P(v,h) 的 计算 通常 很 
棘手 。 
要 注意 ， 受 限 玻 耳 效 曼 机 有 两 个 偏 置 ， 这 是 它 与 其 他 自 编码 网 络 的 区 别 。 隐 藏 
偏 置 4 有 助 于 受 限 玻 耳 兹 曼 机 产生 向 前 穿 过 网 络 的 激励 ， 而 可 见 层 偏 置 5; 则 帮助 受 
限 玻 耳 兹 曼 机 在 反 向 传播 或 反 向 经 过 网 络 时 学 习 重 建 。 








7.1.4 模型 学 习 的 目标 


训练 受 限 玻 耳 兹 曼 机 的 目标 是 调整 模型 的 参数 ,用 @ 表示 训练 参数 ， 对 使 用 训 
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练 数 据 的 对 数 似 然 函 数 最 大 化 。 


_ /aE(v;0) 3E(v;0) 
对 数 似 然 函 数 的 梯度 是 AL(B@) = (20 | ) “。 这 里 


《ua 代表 所 有 关于 数据 分 布 的 可 见 结 点 " 的 期 望 ;，《…) ,a 表示 由 P(v,h) 定 义 的 模 
型 的 联合 分 布 。 

不 地 的 是 ， 对 数 似 然 函 数 梯度 很 难 计算 ， 为 了 解决 这 一 问题 ,需要 一 些 训练 
技巧 。 








7.2 训练 技巧 


7.2.1 技巧 1，Gibbs 采样 


第 一 个 训练 技巧 需要 用 到 P(h 1v) 和 P(v1h) 的 表达 式 。 既 然 它们 两 者 的 表达 式 
是 容易 处 理 的 ， 为 什么 不 使 用 它们 通过 Gibbs 采样 对 联合 分 布 P(v,h) 进行 采样 呢 ? 

Gibbs 采样 是 从 多 维 随 机 分 布 的 联合 分 布 中 产生 样本 的 一 种 蒙特 卡 罗 马 尔 可 夫 链 
算法 。 其 基本 思想 是 在 变量 条 件 分 布 给 出 其 他 变量 状态 的 基础 上 ， 通 过 更 新 每 个 变 
量 构 建 马尔 可 夫 链 。 

在 Gibbs 采样 中 ， 在 给 隐藏 结 点 赋 定 值 的 时 候 对 可 见 结 点 采样 。 同 样 ， 在 给 可 见 
结 点 赋 定 值 的 时 候 对 隐藏 结 点 采样 。 对 于 马尔 可 夫 链 中 的 每 一 步 ， 都 会 随机 抽取 隐 
藏 层 单元 ， 并 根据 它们 Sigmoid 函数 确定 的 概率 赋值 为 1 或 0。 

随 着 步 数 趋 近 无 穷 大 ， 隐 藏 层 和 可 见 层 结 点 的 采样 会 收敛 于 联合 分 布 P(v,h)。 
通过 这 个 技巧 ， 梯 度 的 估计 就 很 容易 获得 了 。 

因为 交 蔡 的 Gibbs 采样 的 一 次 迭代 需要 为 P( 疡 | ") 并行 更 新 所 有 的 隐藏 层 单元 ， 
紧 接着 为 P(v 上) 并 行 更 新 所 有 的 可 见 层 单元 。 所 以 Gibbs 采样 可 能 会 花费 很 长 时 间 
来 收敛 ， 这 取决 于 对 速度 的 需求 。 





7.2.2 技巧 2: 最 小 化 KL 距离 


最 小 化 对 比 散 度 Kullback - Leibler 距离 。 这 里 不 介绍 具体 细节 ,但 是 核心 是 通 
过 设 定 一 个 训练 向 量 的 可 见 单 元 的 状态 启动 马尔 可 夫 链 。 然 后 隐藏 单元 的 二 进 制 状 
态 都 是 通过 并 行 计 算得 到 ， 用 于 计算 P(v |h)。 一旦 从 隐藏 单 元 选 定 了 二 进 制 状态 ， 
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按照 P(v | 从 所 给 的 概率 将 每 个 w 设 定 为 1， 实 现 了 “重建 "。 现 在 ， 只 对 很 小 数量 
的 迭代 进行 Gibbs 采样 ， 不 需要 等 待 收敛 。 

如 果 用 表示 Gibbs 采样 的 迭代 的 数量 ， 很 多 应 用 都 令 k =1， 因 为 1 远 小 于 无 
穷 ， 这 节省 了 很 多 时 间 。 总 之 ， 从 数据 样本 初始 化 的 Cibbs 链 采 样 大 步 就 会 产生 对 比 


在 实践 中 ， 更 高 效 的 做 法 是 一 次 更 新 多 个 训练 样本 ， 对 产生 的 更 新 取 平 均 。 这 
样 就 平滑 了 学 习 信号 ， 并 充分 利用 了 大 和 矩阵 运算 的 效率 。 

使 用 Gibbs 采样 ， 对 观测 数据 和 自由 能 量 函 数 可 以 粗略 估计 对 数 似 然 函 数 梯 
度 值 。 梯 度 下 降 算 法 与 反 向 传播 机 制 的 结合 使 对 数 似 然 函数 估计 值 9 的 获取 更 


六 
电 效 。 


1 


了 


7.2.3 技巧 3: 使 用 RLU 激活 函数 





标准 的 受 限 玻 耳 兹 曼 机 使 用 Sigmoid 激活 函数 ， 在 可 见 层 和 隐藏 层 使 用 二 进 
制 单元 (BU) 。 但 是 ， 也 可 以 使 用 很 多 其 他 的 激活 函数 ， 实 际 上 ， 输 出 范围 在 
[0,1] 的 实数 可 以 用 Logistic 激活 函数 和 没有 做 任何 修正 的 对 比 散 度 作为 训练 
模型 。 

另 一 种 流行 的 激活 函数 是 修正 的 线性 单元 (RLU) ， 它 展现 了 强大 的 图 像 分 
析 能 力 。 在 一 个 使 用 32 x32 彩色 图 像 任 务 中 ,， 相 比 BU 的 0.7777 预测 精度 ， 
RLU 的 预测 精度 为 0.8073。 然 而 ,对 于 散 度 来 说 ， 大 的 标准 差 具 有 统计 学 
意义 。 

RLU 的 另 一 个 优势 是 ， 它 的 参数 不 多 于 BU， 但 它 却 更 具 表 达 力 。 正 如 Vi- 
nod 和 Hinton 所 陈述 的 “与 二 进 制 单元 相 比 ， 这 些 修正 的 线性 单元 学 习 的 特征 
在 NORB 数据 集 上 能 更 好 地 进行 目标 识别 ， 在 Wild 数据 集中 能 很 好 地 完成 脸 部 
认证 ”。 与 BU 不同 ，RLU 保存 了 相关 强度 有 关 的 信息 ， 这 些 信息 经 过 多 个 层次 
的 特征 探测 。 











7.2.4 技巧 4: 模拟 退火 


模拟 退火 是 一 种 对 比 散 度 的 蔡 代 方案 。 它 使 用 必 一 种 对 P(v,h) 的 抽样 的 近似 ， 
P(v,h) 依 赖 于 一 条 有 持续 状态 的 马尔 可 夫 链 。 在 这 一 持续 状态 中 ， 参 数 更 新 后 不 使 


用 数据 样本 初始 化 马尔 可 夫 链 。 在 最 后 一 步 的 更 新 中 使 用 最 后 的 链 状态 。 如 果 学 习 
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效率 选择 得 足够 小 ， 这 项 技术 将 会 带 来 更 好 的 梯度 近似 值 。 

模拟 退火 通过 引入 对 参数 的 额外 设置 来 尝试 提高 学 习 速 度 ， 这 种 额外 的 参数 设 
置 只 用 于 学 习 期 间 的 Gibbs 采样 过 程 。 模 拟 退 火 的 想法 是 通过 引入 补充 的 Gibbs 链 ， 
模拟 原始 系统 的 副本 。 
通常 每 个 样本 的 温度 不 同 。 温 度 越 高 ， 对 应 链 的 分 布 越 平滑 。 并 行 回 火 通 过 允 
许 系统 在 不 同 的 温度 ， 根 据 Metropolis Hastings 比率 给 出 的 概率 ， 交 换 配置 使 链 混合 
得 更 好 〈 取 得 良好 的 抽样 ) 。 原 来 天 个 副本 的 仿真 超过 1L 开 次 ， 比 标准 的 和 单一 温 
度 的 蒙特 卡 罗 仿 真 更 高 效 。 这 一 技术 的 另 一 个 优点 是 可 以 高 效 地 利用 大 型 CPU 集群 ， 
在 CPU 集群 中 ,不 同 的 副本 可 以 并 行 地 运行 。 






































7.3 ”对 深度 学 习 的 质疑 


为 什么 对 比 散 度 方法 会 奏效 ? 至 今 理论 学 家 也 不 能 给 出 满意 的 答案 。Sutskever 
和 Tieleman 指出 ， 学 习 规则 不 遵循 任何 函数 梯度 ， 尽 管 对 比 散 度 取得 了 经 验 上 的 成 
功 ， 但 是 对 它 的 收敛 性 质 的 理论 知之 甚 少 。 波 士 顿 大 学 的 物理 学 Pankaj Mehta 教授 
和 西北 大 学 生物 物理 学 David Schwab 教授 就 深度 学 习 指 出 ,， “尽管 深度 学 习 取 得 了 巨 
大 成 功 ,但 很 少 有 人 在 理论 上 去 探究 为 什么 深度 学 习 技术 在 特征 学 习 和 压缩 上 会 如 
此 成 功 。” 

对 比 散 度 就 不 是 很 好 理解 ， 但 这 并 不 是 问题 ， 最 成 功 的 数据 科学 家 是 务实 的 ， 
他 们 先 于 理论 家 提出 解决 实际 问题 的 创新 方案 。 如 果 一 项 技术 非常 好 用 ， 数 据 学 家 
就 会 一 直 使 用 它 ， 直 到 发 现 更 好 的 技术 。 对 比 散 度 的 方法 非常 好 以 至 于 可 以 在 很 多 
重要 的 应 用 中 取得 成 功 。 

一 旦 理论 学 家 迎头 赶 上 ， 理 论 会 为 为 什么 这 一 想法 是 个 伟大 的 想法 提供 额外 
的 技术 支持 。 这 是 一 个 非常 重要 的 行动 ， 但 是 我 们 不 能 等 待 理论 的 成 熟 ， 继 续 奔 
跑 吧 ! 















































7.4 RBM 应 用 


在 过 去 的 10 年 中 ，RBM 已 经 广泛 应 用 于 很 多 的 应 用 中 ,包括 降 维 、 分 类 、 协 同 
过 滤 、 特 征 学习 和 主题 建 模 。 本 来 探究 这 方面 的 两 个 应 用 。 
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7.4.1 肝癌 分 类 的 RBM 


临床 研究 人 员 已 经 得 出 结论 ,癌症 血清 含有 一 种 与 一 组 独特 的 自体 反应 细胞 抗 
原 起 反应 的 抗体 ， 这 种 抗原 称 为 肿瘤 相关 抗原 。 这 是 一 个 激动 人 心 的 消息 ， 因 为 微 
型 抗原 阵列 有 探测 和 诊断 各 种 类 型 的 癌症 的 潜力 。 技 巧 在 于 将 抗原 与 特定 类 型 的 抗 
体 正 确 地 联合 。 一 旦 这 一 微型 阵列 被 创建 ， 这 就 变 成 了 适合 受 限 玻 耳 效 曼 机 的 分 类 
问题 。 

Koziol 等 人 研究 了 用 于 肝癌 分 类 的 RBM， 分 类 的 标准 是 Logistic 回归 。Logistic 回 
归 是 线性 回归 的 分 支 ， 广 义 线性 模型 家 族 的 成 员 之 一 ， 几 十 年 来 在 医学 统计 领域 拥 
有 至 高 无 上 的 统治 权 。 

因为 Logistic 回归 是 基于 结果 概率 进行 建 模 的 ， 所 以 它 能 完全 适应 分 类 任务 ， 并 
在 许多 学 科 中 赢得 了 金 标准 的 地 位 。Logistie 回归 是 使 用 最 广泛 的 二 进 制 分 类 数据 分 
析 模 型 之 一 。 

Koziol 等 人 将 收集 的 175 名 肝癌 患者 和 90 名 正常 名 人 的 血清 样本 用 于 Logis- 
tic 回归 和 受 限 玻 耳 兹 曼 机 并 进行 比较 研究 ，12 种 抗原 表达 为 重组 蛋白 。 研 究 人 
员 分 别 对 受 限 玻 耳 效 曼 机 模型 和 Logistic 回归 模型 用 10 倍 交叉 验证 。 整 个 数据 
集 随 机 分 为 10 个 同样 大 小 的 子 样本 。 每 个 子 样本 被 分 层 以 保护 癌症 病例 的 比例 
控制 。 用 9 个 子 样本 对 Logistic 回归 和 受 限 玻 耳 效 曼 机 进行 训练 ; 第 10 个 样本 用 
于 确认 。 

表 7.1 中 展示 了 使 用 12 种 抗原 的 二 分 数据 的 结果 。 尽 管 RBM 很 有 前 途 ， 但 一 
定 不 是 RBM 的 终极 。 








表 7.1 使 用 12 种 抗原 的 二 分 数据 的 结果 











模 型 敏 感 度 特异 性 
Logistic 回归 0.697 0. 811 
RBM 0.720 0. 800 








敏感 度 (Sensitivity) 是 分 类 各 识别 积极 结果 的 一 种 能 力 ， 特 异性 (Specificity) 
则 是 区 分 消极 结果 的 一 种 能 力 。 
有 NTP 
Sensitivity = NTP ENTN x100% 
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Specificity = i x 100% 


式 中 ，N7P 是 真 阳性 的 数量 ，NTN 是 阴性 的 数量 。 


7.4.2 ”麻醉 镇 定 作用 预测 的 RBM 


研究 人 员 开 发 了 一 个 RBM 来 预测 麻醉 的 镇 定 作用 。 两 种 不 同类 型 的 特征 被 提取 

第 一 组 特征 是 与 患者 的 自主 神经 系统 相关 的 属性 ， 管 理 着 内 脏 器 官 的 功能 ， 包 
括 心率 、 血 压 和 外 围 毛细 管 氧 饱和 度 (动脉 血 氧 饱和 度 ) 。 

第 二 组 特征 的 测量 指标 与 患者 的 麻醉 诱导 状态 有 关 ， 包 括 局 部 麻醉 浓度 、 呼 气 
二 氧化 矶 浓度 、 小 部 分 吸 气 二 氧化 砚 和 最 小 肺泡 浓度 。 

对 27 名 麻醉 患者 收集 包括 镇 定 的 响应 变量 在 内 的 连续 数据 。 训 练 集 由 
5000 个 随机 选择 的 阶段 组 成 ， 其 中 1000 个 用 于 抽样 。 用 留 一 法 交叉 验证 均 方 
误差 。 

按照 benchmark 性 能 ， 研 究 人 员 首 先 对 RBM 的 均 方差 与 前 馈 神 经 网 络 (ANN ) 
和 使 用 不 同 特征 (MN -1、MN -2、MN -3) 的 模块 化 神经 网 络 进行 比较 。 图 7.3 
给 出 了 对 比 结果 。 表 明 前 馈 神 经 网 络 、MN -1、MN -2、MN -3 和 RBM 的 平均 均 方 
差 。 均 方差 分 别 为 0.0665 、0. 0590 、0. 0551 、0. 0515 和 0. 0504 。RBM 的 错误 最 小 。 
这 是 使 用 RBM 的 一 个 积极 的 信号 ， 虽 然 不 是 决定 性 的 ， 但 均 方 差 似乎 和 MN -3 有 
所 区 别 。 

应 用 该 方法 到 生物 系统 能 够 减少 对 病人 的 监测 成 本 ， 并 提高 医疗 质量 ， 其 结果 
令 数 据 科学 界 震 惊 。 






































图 7.3 不 同 建 模 方法 的 均 方差 对 比 


114 


7.5 RBM 的 R 实现 


【 例 7.1】 用 Mobility 数据 结构 构建 RBM。 
(1) 加 载 所 需 的 包 和 数据 


> require( ReppDL) 
> require( " ltm" ) 
> data( Mobility ) 


> data <= Mobility 


ReppDL 包 包 含有 评估 RBM 的 函数 ，ltm 包含 有 Mobility 数据 集 。 采 样 1000 个 观 
测 值 ， 其 中 800 用 作 训 练 集 ， 数 据 结构 见 表 6. 1 。 


> set seed (2395 ) 

> n=nrow( data) 

> sample <— sample (1:n,1000,FALSE) 

> data <—as. matrix (Mobility [ sample, ] ) 
> n=nrow( data) 


> train <— sample (1:n,800,FALSE) 


(2) 数据 准备 





> x_train <— matrix(as. numeric (unlist (data[ 
train, | ) ) ,nrow = nrow( datal train, | ) ) 
> x_test <— matrix(as. numeric (unlist (data[ 


—train, | ) ) ,nrow = nrow( datal — train, | ) ) 





> x train <—x train | ,—c(4,6)|] # 删 除 训练 集 第 4 和 第 6 列 
> xtest <—x test [,—c(4,6) |] # 删 除 测试 集 第 4 和 第 6 列 

















> head (x_ train) 


[,1] [,2] [3] [,4] 1,5] [,6] 











[1,] 1 1 1 1 0 1 
[2;| 1 0 1 0 0 0 
[3,] 1 1 1 0 0 0 
4,] 1 0 0 0 0 0 
5 1 0 0 0 0 0 
6,] 1 1 1 0 0 0 


773 


> head (x_test) 


Bll ls2l [33] [sd [3] 
[1,] 0 0 0 0 0 
[2,] 1 0 0 0 0 
[3,] 1 0 0 0 0 
[4,] 1 0 1 0 0 
[5,] 1 1 1 1 0 
[6,] 0 0 1 0 0 








(3) 构建 RBM 
> ft <- Rrbm (x_train) 
设 定 隐 含 层 3 个 结 点 的 学 习 率 为 0.01。 


> setHiddenRepresentation (fit,x=3) 


> setLearningRate (fit,x=0.01) 
模型 的 摘要 : 


> summary (fit) 
$LearningRate 
[1] 0.01 


$ContrastiveDivergenceStep 


[1]1 
$TrainingEpochs 
[1] 1000 


$HiddenRepresentation 








[1]3 
模型 训练 代码 : 
> train (fit) 


可 以 在 Rrbm 中 设 定 很 多 参数 ， 包 括 : 
® setStep signature 
® setLearningRate 


® setTrainingEpochs 
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(4) 模型 部 署 


reconProb <— reconstruct (fit,x_ train) 
> head( reconProb ,6) 

[ ,1] [ ,2] [ ,3] [ ,4] [ ,5] [ ,6] 
[1,] 0.7598778 0.3435336 0.6941071 0.11650449 0.10796628 0.14369203 
0.8237427 0.3128176 0.7621758 0.06838804 0.06258921 0.08983742 


9 


0.8187479 0.3163145 0.7565158 0.07186695 0.06600808 0.09402979 


9 


0. 8092837 0.3198017 0.7461960 0.07815092 0.07162580 0.10108005 
0. 8092837 0.3198017 0.7461960 0.07815092 0.07162580 0.10108005 


9 








[2 
[3 
[4 
[5 
[6 


,] 0.8187479 0.3163145 0.7565158 0. 07186695 0.06600808 0.09402979 
将 概率 转化 为 二 进 制 值 ; 


> recon <—ifelse(reconProb > =0.5,1,0) 


查看 重建 的 值 : 








> head (recon) 


[,1] [,2] [3] [4 








[1, 1 0 1 0 0 0 

[区 0 1 0 0 0 

3,] 1 0 1 0 0 0 

4,] 1 0 1 0 0 0 

[5,] 1 0 1 0 0 0 

6,] 1 0 1 0 0 0 
创建 混合 矩阵 : 


> table(recon ,x_train,dnn =c("Predicted" ," Observed" ) ) 
Observed 
Predicted 0 1 
0 2786 414 
1 371 1229 


如 图 7.4 所 示 ， 图 像 重 建 虽 然 不 是 RBM 的 核心 ， 但 包含 了 RBM 的 主要 特征 。 





T 








> par(mfrow =c(1,2)) 
> image(x_train,main =" Train ") 


> image(recon,main =" Reconstruction ") 
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也 可 以 使 用 deepnet 包 评 估 RBM ， 方 法 如 下 : 


> fit2 <-rbm. train (x_train, 
hidden =3， 
numepochs =3 ， 
batchsize = 100 ， 
learningrate =0. 8， 
learningrate_scale = 1 ， 
momentum =0. 3 ， 
visible _ type = " bin" ， 
hidden_type ="bin" ， 
cd=1) 


训练 重 构 





ll 
员 


0.0 02 04 06 0.8 1.0 0.0 02 0.4 06 0.8 1.0 





























图 7.4 使 用 RBM 对 Mobility 的 重建 


注意 ，rbm. train 允许 指定 块 的 大 小 ， 块 的 大 小 在 大 的 样本 中 非常 重要 。RBM 是 
非常 强大 的 学 习 机 器 ， 但 是 它们 最 重要 的 用 途 是 作为 深度 置信 网 络 的 构建 而 使 用 的 
学 习 方法 ， 细 节 见 第 8 章 。 


7.6 学 习 指 南 





RBM 是 由 一 个 隐藏 层 和 一 个 可 见 层 组 成 的 。 与 前 馈 网 络 不 同 的 是 ，RBM 可 见 层 


和 隐藏 层 之 间 的 连接 是 无 向 的 〈 两 个 方向 传播 )， 并 且 是 完全 连接 的 (从 给 定 层 的 每 
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个 单元 连接 到 下 一 个 层 的 每 个 单元 ) ， 前 提 是 如 果 允 许 任何 层 的 任何 单元 能 够 连接 到 
任何 层 ， 那 么 就 有 一 个 玻 耳 效 曼 机 ， 但 是 不 是 RBM。 

标准 的 RBM 有 一 个 二 进 制 隐藏 层 和 可 见 层 ， 也 就 是 ， 神 经 元 的 激活 值 在 伯 努 利 
分 布下 是 0 或 1， 没 有 非 线性 变换 。 

虽然 RBM 出 现 已 经 有 一 段 时 间 了 ， 最 近 推 出 的 对 比 散 度 无 监督 的 训练 算法 重新 
燃 起 人 们 的 兴 

RBM 是 一 个 可 生成 的 随机 神经 网 络 ， 它 能 学 习 对 其 一 组 输入 的 概率 分 布 。 
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第 8 章 深度 置信 网 络 DBN 





一 个 深度 置信 网 络 (Deep Belief Network，DBN) 是 由 多 个 堆栈 RBM 构成 的 概率 
生成 多 层 神经 网 络 。 在 DBN 中 ， 每 两 个 相 邻 隐 层 构成 一 个 RBM，RBM 的 输出 是 输 
入 的 特征 ， 每 一 个 RBM 实际 上 是 一 个 非 线性 变换 ，RBM 的 输出 是 下 一 个 RBM 的 输 
入 。 堆 栈 中 的 每 一 个 RBM 起 到 了 对 数据 不 同 表 达 的 作用 。 

DBN 一 般 分 为 两 类 层次 : 一 个 是 可 视 层 ; 一 个 是 隐 层 。 可 视 层 包括 输入 结 点 和 
输出 结 点 ， 其 他 结 点 为 隐藏 层 结 点 ，DBN 的 训练 分 为 两 步 : 预 训练 和 不 同 于 反 向 传 
播 的 微调 算法 。 





























8.1 DBN 原理 


使 用 BP 算法 单独 训练 每 一 层 的 时 候 ， 必 须 丢 掉 网 络 的 第 三 层 ， 才 能 级 联 自 联 想 
神经 网 络 。 然 而 ， 有 一 种 更 好 的 神经 网 络 模 型 ， 这 就 是 受 限 玻 耳 兹 曼 机 。 使 用 层 羞 
玻 耳 效 曼 机 组 成 深度 神经 网 络 的 方法 ， 在 深度 学 习 里 被 称 作 深 度 置信 网 络 DBN， 这 
是 目前 非常 流行 的 方法 。 下 面 的 术语 ， 将 自 联想 网 络 称 作 自 编 码 ( Auto Encoder， 
AE) 网 络 。 通 过 堆栈 自 编码 网 络 形成 DBN。 

经 典 的 DBN 网 络 结构 是 由 若干 层 RBM 和 一 层 BP 组 成 的 一 种 深层 神经 网 络 ， 结 
构 如 图 8. 1 所 示 。 

DBN 在 训练 模型 的 过 程 中 主要 分 为 两 步 : 

(1) 预 训 练 阶段 

预 训练 采用 逐 层 贪 梦 学 习 策 略 ， 独 立地 使 用 对 比 散 度 训 练 每 个 RBM， 然 后 堆积 
在 一 起 。 

当 第 一 个 RBM 训练 好 后 ， 其 参数 就 确定 了 ， 通 过 训练 样本 (可 视 层 ) 训练 的 隐 
藏 层 结 点 的 值 (RBM 的 输出 ) 变 成 第 二 个 RBM 可 视 结 点 的 值 。 第 一 个 RBM 学 习 到 
的 权重 用 作 预 测 隐 层 结 点 的 激活 概率 。 激 活 概 率 就 是 第 二 个 RBM 可 视 层 的 权重 。 重 
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复 这 个 过 程 ， 直 到 最 后 RBM 训练 完成 。 
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图 8.1 DBN 基本 结构 


总 的 来 说 ， 与 多 层 神经 网 络 一 样 ， 可 以 通过 一 层 的 激活 概率 作为 下 一 层 的 训练 
数据 来 有 效 地 训练 DBN。 

因为 预 训练 是 无 监督 的 ， 所 以 ， 这 个 过 程 不 需要 类 标签 。 实 际 上 ， 分 块 (Batch - 
Learning) 方法 通常 被 用 来 加 速 预 训练 过 程 ， 用 RBM 权重 修改 每 一 个 块 。 多 个 隐藏 
层 产生 的 多 个 特征 层 变 得 越 来 越 复杂 ， 预 训练 易于 捕获 数据 的 高 层 特征 。 在 微调 阶 
段 ， 当 给 定 标签 后 ， 高 层 特征 有 助 于 有 监督 学 习 。 

(2) 微调 阶段 

微调 阶段 采用 标准 的 BP 算法 ， 自 上 而 下 调整 预 训 练 网 络 每 一 层 的 权重 ， 使 权重 
更 适合 分 类 。 正 如 前 面 看 到 的 那样 ， 微 调包 括 调整 权重 ， 调 整 权 重 的 目的 在 于 通过 
减少 网 络 预测 类 与 实际 类 的 误差 来 增强 鉴别 能 力 ， 另 外 ，Softmax 输出 层 使 用 多 类 分 
类 器 。 所 以 ，Softmax 分 类 器 通过 RBM 学 到 了 特征 抽取 联合 模型 ， 输 出 层 结 点 数量 
等 于 类 别 数量 。 

因为 微调 包含 了 有 监督 学 习 ， 所 以 ， 训练 数据 需要 相应 标签 。 训 练 完 成 后 ， 通 
过 对 测试 数据 从 第 一 个 可 视 层 前 向 传播 到 Softmax 输出 层 来 预测 测试 样本 类 标签 。 





















































8.2 应 用 案例 


由 于 AE 可 以 对 原始 数据 在 不 同 概 念 的 粒度 上 进行 抽象 ， 一 种 自然 的 深度 网 络 的 
727 


应 用 是 对 数据 进行 压缩 (或 者 叫 降 维 ) 。 
(1) 降 维 
胡 邵 华 等 用 一 种 自 编码 网 络 实现 了 对 经 典 的 “瑞士 卷 ” 数 据 的 重 构 ( 见 图 8.2)。 





图 8.2 “瑞士 卷 ” 重 构 


“瑞士 卷 ” 数 据 是 经 典 的 机 器 学 习 中 难于 分 类 的 数据 之 一 ， 其 隐 含 的 数据 内 在 模 
式 难以 在 二 维 数据 中 描述 。 然 而 ， 胡 邵 华 等 采用 深度 置信 网 络 实现 了 对 三 维 瑞士 卷 
数据 的 2 维 表 示 ， 其 自 编码 网 络 结 点 大 小 依次 为 3 -100 -50 -25 -10 -2。 具 体 的 实 
现 细节 参考 有 关 文 献 。 

(2) 特征 提取 

通过 训练 一 个 5 层 的 深度 网 络 提取 音乐 的 特征 ， 用 于 音乐 风格 的 分 类 ， 其 分 类 
精度 比 基 于 梅 尔 倒 谱 系数 (MFCC) 特征 分 类 的 方法 提高 了 14 个 百分点 ( 
图 8.3)。 








| 

















图 8.3 深度 网 络 提取 音乐 的 特征 





实现 思路 非常 简单 ， 用 上 述 层 释 的 多 个 RBM 网 络 组 成 深度 网 络 结构 来 提取 音乐 
的 特征 。 输 入 的 原始 数据 是 经 过 分 帧 、 加 窗 之 后 的 信号 的 频谱 。 分 类 器 采用 的 是 支 
持 向 量 机 (SVM)。 对 比 的 方法 则 是 提取 MFCC 特征 系数 ， 分 类 器 同样 采用 SVM。 更 
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多 的 细节 和 实验 结果 可 以 参考 有 关 文 献 。 

深度 网 络 是 一 种 良好 的 机 器 学 习 方 法 ， 其 特征 提取 功能 能 够 针对 不 同 概念 的 粒 
度 大 小 ， 在 很 多 领域 都 得 到 广泛 的 应 用 。 通 常 ，DBN 对 一 维 数据 的 建 模 比较 有 效 ， 
例如 语音 。 而 通过 级 联 多 层 卷 积 网 络 组 成 深度 网 络 的 模型 主要 用 于 二 维 数据 建 模 ， 
例如 图 像 等 。 

















8.3 DBN 的 R 实现 











【 例 8.1】 以 Mobility 数据 集 第 1、2、3、5、7、8 列 属性 预测 某 人 是 否 去 看 电影 
或 看 文化 展览 或 参加 亲子 活动 或 去 母 婴 馆 。 
(1) 加 载 依赖 的 包 和 数据 

















>gc(rm( list =ls())) # 将 内 存 变 量 清空 
> library ( ReppDL) 

> library( ltm) 

> data( Mobility ) 

> data <— Mobility # 获 取 数 据 


>y<—apply(cbind(data[l ,4 ] ,datal ,6]) ,1,max,na rm =TRUE) 


(2) 数据 准备 





> set. seed(2) 

>n = nrow( data) # 样 本 下 标 随机 取样 的 上 界 

> sample <-sample(1:n,1000,FALSE) # 随 机 产生 1000 个 样本 的 下 标 

> data <-as. matrix( Mobility[ sample, ] )# 根 据 下 标 取出 1000 个 样本 

>n = nrow( data) # 训 练 样本 下 标 随机 取样 的 上 界 
# 随 机 产生 800 个 训练 样本 的 下 标 

>train <— as. integer( sample( row. names( data) ,800 ,FALSE ) ) 
# 格 式 化 训练 集 : 

>y_train <— as. numeric(y[train] ) # 根 据 训练 样本 下 标 产生 800 个 样本 标记 
>temp <=-ifelse(y train ==0,1,0) ”# 取 反 














>y_train <—cbind(y_train,temp) 
> head(y_train) # 查 看 训练 集 
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y_train temp 








[1,] 1 0 
[2,] 0 1 
[3,] 1 0 
[4,] 0 1 
[5,] 0 1 
[6,] 1 0 
# 格 式 化 测试 集 : 
>nl <— setdiff( sample ,train ) # 求 sample 的 补 集 


>y_test <—as. numeric(y[ nl ]) # 根 据 测试 样本 下 标 产 生 200 个 测试 样本 标记 


>templ <—ifelse(y_test==0,1,0) 





>y_test <—cbind(y_test,templ) 


> head(y_test) # 查 看 测试 集 
y_test templ 
[1,] 0 1 
[2,] 0 1 
[3,] 1 0 
[4,] 0 1 
[5,] 1 0 
[6,] 0 1 








仿 查 训练 集 和 测试 集 的 样本 数 . 








>nrow(y_ train) # 显 示 训 练 集 样本 数 
[1] 800 

> nrow(y_test) # 显 示 测 试 集 样本 数 
[1] 200 








# 下 面 创 建 训 练 集 和 测试 集 对 象 (x_train ,x_test) 
> data <— as. data. frame( data) 
>x_train <— as. matrix( datal as. character( train) , ] ) 


>x_test <— as. matrix( datal as. character( nl1 ) , ] ) 





>x_train <—x train [,—c(4,6)] # 删 除 第 4.6 列 
# 把 int 类 型 矩阵 转换 为 num 类 型 


>x_train <— as. data. frame(x_train) 
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>x_train <— lapply( x_train ,as. numeric ) 

>x_train <— as. data. frame( x_train) 

>x_train <— as. matrix( x_train) 

>x_test <—x test [,—c(4,6)] # 删 除 第 4.6 列 
>x_test <— as. data. frame( x_test) 

>x_test <— lapply( x_test ,as. numeric) 

>x_test <— as. data. frame( x_test) 

>x_test <— as. matrix( x_test) 


> head (x_train) 














hsll Ls2l [23 (stl ss Le 
[1,] 1 1 1 1 0 1 
[2,] 1 0 1 0 0 0 
[3,] 1 1 1 0 0 0 
[4,] 1 0 0 0 0 0 
[5,] 1 0 0 0 0 0 
[6,] 1 1 1 0 0 0 
> head (x_test) 
[EL] Ls) [31 Ls4]/ 33 ;0d 
1, 0 0 0 0 0 0 
[2, 1 0 0 0 0 0 
[3, 1 0 0 0 0 0 
[4， 1 0 1 0 0 0 
[5,] 1 1 1 1 0 0 
[6,] 0 0 1 0 0 0 
(3) 建 模 
创建 两 个 隐藏 层 的 网 络 ， 第 一 个 隐藏 层 为 12 个 结 点 ， 第 二 个 隐藏 层 为 10 个 
= 
知 所。 


> hidden = c(12,10) 

>fit <- Rdbn(x_train,y_train, hidden) # 创 建 具有 两 个 隐藏 层 的 RBN 模型 

> summary (fit) # 查 看 模型 细节 
$PretrainLearningRate 

[1] 0.1 


$PretrainingEpochs 
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[1] 1000 
$FinetuneLearningRate 
[1] 0.1 

$FinetuneEpochs 

[1] 500 


$ContrastiveDivergenceStep 








[1]1 
(4) 模型 部 署 


> pretrain (fit) 
>finetune (fit) 
> predProb <— predict (fit,x_test) 
> head (predProb ,6) 

[ ,1] [ ,2] 
[1,] 0.3942584 0.6057416 
[2,] 0.4137407 0.5862593 
[3,] 0.4137407 0.5862593 
[4,] 0.4332217 0.5667783 
[5,] 0.4970219 0.5029781 
6 








[6,] 0.4142550 0.5857450 


> predl <— ifelse( predProb|[ ,1 ] > =0.5,1,0) 


# 预 训练 

# 微 调 

# 用 RBN 模型 预测 测试 样本 分 类 
输出 是 预测 概率 




















六 


# 预 测 概 率 二 值 化 


> table( predl ,y_test[ ,2] ,dnn =c("Predicted" ," Observed" ) ) # 计 算 混 消 和 矩阵 


Observed 

Predicted 0 1 
0 115 75 
1 0 10 


8.4 学 习 指 南 


DNN 有 两 种 基本 结构 : 卷 积 神经 网 络 ( Convolutional Neural Networks ，CNN ) 和 


深度 置信 网 络 (Deep Belief Network ，DBN ) 。 


从 前 几 章 已 经 发 现 ，AE 隐藏 层 和 RBM 能 作为 有 效 的 特征 探测 器 ， 但 是 很 少 直 








接 使 用 它们 。 实 际 数据 比 前 面 的 规则 数据 集 更 加 复杂 ， 所 以 ， 需 要 寻找 到 一 些 方法 
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间接 使 用 这 个 特征 检测 需 。 

幸运 的 是 ， 发 现 这 些 RBM 可 以 堆 合 (Stack) 形成 深度 网 络 ， 这 个 网 络 可 以 使 
用 经 典 的 反 向 传播 算法 ， 逐 层 贪 焚 训 练 ， 以 帮助 克服 梯度 弥 失 和 过 度 拟 合 问题 ( 见 
图 8.4)。 























A 
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图 8.4 DBN 结构 

DBN 的 灵活 性 使 得 它 的 拓展 比较 容易 。 一 个 拓展 就 是 加 入 卷 积 的 DBN (Convo- 
lutional Deep Belief Networks，CDBN)。DBN 并 没有 考虑 到 图 像 的 二 维 结构 信息 ， 
为 输入 是 简单 地 从 一 个 图 像 矩 阵 一 维 向 量化 的 。 而 CDBN 就 是 考虑 到 了 这 个 问题 ， 
它 利用 邻 域 像素 的 空域 关系 ， 通 过 一 个 称 为 卷 积 RBM 的 模型 来 达到 生成 模型 的 变换 
不 变性 ， 而 且 可 以 容易 地 变换 到 高 维 图 像 。DBN 并 没有 明确 地 处 理 观测 变量 为 时 间 
序列 的 情况 ,虽然 目前 已 经 有 这 方面 的 研究 ， 例 如 堆 生 时间 RBM， 时 态 卷 积 网 络 。 
这 种 序列 学 习 的 应 用 ， 给 语音 信号 处 理 问题 带 来 了 未 来 的 研究 方向 。 
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第 9 章 MXNetR 


9.1 MXNet 技术 特性 


MXNet 名 字源 于 “Mix and Maximize”， 与 其 他 工具 相 比 ，MXNet 结合 了 符号 语 
言 和 过 程 语 言 的 编程 模型 ， 并 试图 最 大 化 各 自 优 势 ， 利 用 统一 的 执行 引擎 进行 自动 
多 GPU 并 行 调度 优化 。 

不 同 的 编程 模型 有 各 自 的 优势 ， 以 往 的 深度 学 习 库 往往 着 重 于 灵活 性 ， 或 者 性 
能 。MXNet 通过 融合 的 方式 把 各 种 编程 模型 整合 在 一 起 ， 并 且 通 过 统一 的 轻 量 级 运 
行 引 擎 进行 执行 调度 。 这 使 得 用 户 可 以 直接 复 用 稳定 高 效 的 神经 网 络 模块 ， 并 且 可 
以 通过 R 等 高 级 语言 进行 快速 扩展 。 

MXNet 融合 了 Minerva 的 动态 执行 、Cxxnet 的 静态 优化 和 Purine2 的 符号 计算 等 
思想 ， 直 接 支持 C 接口 和 静态 /动态 Library ， 使 得 对 于 新 语言 的 扩展 更 加 容易 。 

MXNet 主要 技术 特点 如 下 : 

1) 轻 量 级 调度 引擎 。 在 数据 流 调度 的 基础 上 引入 了 读 写 操作 调度 ， 并 且 使 得 调 
度 和 调度 对 象 无 关 ， 用 以 直接 有 机 支持 动态 计算 和 静态 计算 的 统一 多 GPU 多 线程 调 
度 ， 使 得 上 层 实现 更 加 简洁 灵活 。 

2) 符号 计算 支持 。MXNet 支持 基于 静态 计算 流 图 符号 计算 。 计 算 流 图 不 仅 使 设 
计 复 杂 网 络 更 加 简单 快捷 ， 而 且 基 于 计算 流 图 ，MXNet 可 以 更 加 高 效 地 利用 内 存 。 
同时 进一步 优化 了 静态 执行 的 规划 ， 内 存 需求 比 Cxxnet 还 要 少 。 

3) 混合 执行 引擎 。 相 比 Cxxnet 的 全 静态 执行 、Minerva 的 全 动态 执行 ，MXNet 
采用 动静 态 混合 执 行 引擎 ， 可 以 把 Cxxnet 静态 优化 的 效率 和 Ndarray 动态 运行 的 灵活 
性 结合 起 来 ， 把 高 效 的 C ++ 库 更 加 灵活 地 和 Python 等 高 级 语言 结合 在 一 起 。 

4) 更 加 灵活 。 在 MShadow C ++ 表达 式 模 板 的 基础 上 ， 符 号 计算 和 NDArray 使 
在 R 等 高 级 语言 内 编写 优化 算法 、 损 失 函 数 和 其 他 深度 学 习 组 件 并 高 效 无 缝 地 支持 
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CPUZGPTU 成 为 可 能 。 用 户 无 须 关 心底 层 实现 ， 在 符号 和 NDArray 层面 完成 逻辑 即 可 
进行 高 效 的 模型 训练 和 预测 。 

5) 对 于 云 计算 更 加 友好 。 所 有 数据 模型 可 以 从 S3AHDFS/Azure 上 直接 加 载 
训练 。 

6) 代码 更 加 简洁 高 效 。 大 量 使 用 C ++11 特性 ， 使 MXNet 利用 最 少 的 代码 实现 
尽 可 能 最 大 的 功能 。 用 约 11k 行 C++ 代 码 (加 上 注释 4k 行 ) 实现 了 以 上 核心 功能 。 

7) 开源 用 户 和 设计 文档 。MXNet 提供 了 非常 详细 的 用 户 文档 和 设计 文档 以 及 样 
例 。 所 有 的 代码 都 有 详细 的 文档 注释 ， 并 且 会 持续 更 新 代码 和 系统 设计 细节 ， 对 广 
大 深度 学 习 系 统 开 发 和 爱好 者 有 所 帮助 。 

8) 它 能 够 在 R 上 编写 无 缝 的 多 核 CPU 张 量 /和 矩 阵 运算 。 

9) 它 能 够 在 R 上 构建 和 定制 最 先进 水 平 的 深度 学 习 模 型 ， 并 将 它们 应 用 到 图 像 
分 类 和 数据 科学 等 挑战 性 任务 。 




















9.2 MXNetR 安装 





MXNetR 是 最 大 开源 分 布 式 机 器 学 习 项 目 DMLC 发 布 的 深度 学 习 框架 MXNet 的 
一 个 R 包 ， 它 填补 了 R 语言 在 深度 学 习 和 GPU 计算 上 的 空白 ， 可 以 直接 使 用 R 进行 
显卡 加 速 深度 神经 网 络 训 练 。MXNetR 支持 Amazon Linux、Ubuntu/Debian、0S X 和 
Windows， 并 且 支 持 多 语言 编程 。 























9.2.1 安装 MXNet 基本 需求 


(1) 最 小 需求 

C++11 编译 器 。 用 于 编译 C++ 和 构建 MXNet 源 代码 ，MXNet 支持 的 编译 器 
包括 : 

1) G++。C++4.8 以 后 版 本 。 

2) Clang。Clang 是 一 个 C++ 编写 、 基 于 LLVM、 发 布 于 LLVM BSD 许可 证 下 的 
C/C++/Objective - C/Objective - C++ 编译 器 。 它 与 CNU C 语言 规范 几乎 完全 兼容 
(当然 ， 也 有 部 分 不 兼容 的 内 容 ， 包 括 编 译 命令 选项 也 会 有 点 差异 ) ， 并 在 此 基础 上 
增加 了 额外 的 语法 特性 ， 比 如 C 函数 重 载 (通过 _attribute _〈 (overloadable) ) 来 修饰 
函数 ) ， 其 目标 (之 一 ) 就 是 超越 GCC。 

3) BLAS (Basic Linear Algebra Subprograms) 库 。BLAS 即 基础 线性 代数 子 程序 
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库 ,， 里 面 拥 有 大 量 已 经 编写 好 的 关于 线性 代数 运算 的 程序 ， 支 持 BLAS 的 库 包 括 Lib- 
blas 、Openblas 和 Intel MKL。 

(2) 使 用 GPU 的 需求 

支持 计算 能 力 大 于 Compute Capability 2.0 或 更 高 的 GPU，GPU 的 特性 取决 于 
CUDA， 最 好 使 用 CUDA Toolkit 7. 0 或 更 高 版 本 。CUDA Toolkit 是 一 个 允许 MXNet 在 
NVIDIA CPU 上 运行 的 环境 ， 包 括 编译 器 、 数 学 库 和 调试 工具 。 

CuDNN (CUDA Deep Neural Network ) 库 ， 通 过 协调 CPU 性 能 来 加 速 CPU 。 

(3) 支持 计算 机 视觉 和 图 像 增强 的 需求 

如 果 要 处 理 计算 机 视觉 方面 的 任务 ， 则 需要 OpenCV 库 。 

















9. 2.2 ”MXNet 云 设置 

















如 果 要 使 用 MXNet 云 ， 则 需求 如 下 : 
(1) 通过 AWS 预 配 置 Amazon Machine Images (AMI) 
下 面 的 链接 给 出 了 云 上 次 度 学 习 Blog 和 AMI 的 示例 : 


https://aws. amazon. com/ cn/blogs/aws/new - p2 - instance -type -for ~ amazon — 








ec2 -up -to-16 -gpus/ (Deep Learning Blog) 
https://aws. amazon. com/marketplace/pp/BO1MOAXXQB( Deep Learning Blog) 
其 中 ，AMI 不 但 支持 MXNet， 还 支持 其 他 深度 学 习 框 架 。 
(2) 在 AWS 上 使 用 MXNet 的 示例 
为 了 扩展 在 AWS GPU 上 使 用 CloudFormation 模板 的 示例 ， 需 要 阅读 以 下 链接 . 
https://aws. amazon. com/ cn/ blogs/ compute/ distributed - deep — learning - made — 
easy/ ( CloudFormation Template AWS Blog) 


和 


9. 2.3 ”MXNet 安装 方法 




















(1) MXNet 快速 安装 
如 果 安 装 环境 是 Amazon Linux 或 Ubuntu ， 则 可 以 使 用 Git Bash 脚本 快速 安装 
MXNet。 

(2) MXNet 标准 安装 

这 里 只 给 出 Windows 的 安装 ，Linux 和 0S X (Mac) 安装 可 参考 相关 文献 。 

(3) 下 载 MXNet Prebuilt 包 


Prebuilt 包 包括 MXNet 库 和 所 有 第 三 方 依赖 库 。Prebuilt 包 有 两 个 版 本 ， 一 个 是 
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支持 CPU ,一 个 是 不 支持 CPU。 把 Prebuilt 包 解压 到 文件 夹 ， 并 起 一 个 合适 的 名 字 ， 





如 DD:\MXNet， 打 开 该 文件 夹 ， 执 行 setupenv. cmd， 最 后 用 一 个 C ++ 例子 测试 ， 产 
生 的 库 称 为 ibmxnet dll。 


9. 2. 


(4) Building and Installing Packages on Windows 

为 了 安装 MXNet 需要 下 面 的 依赖 软件 : 

e Microsoft Visual Studio 2013 ; 

e Visual C ++ Compiler Nov 2013 CTP (提供 C++ 支持 ); 

e OpenCV (支持 计算 机 视觉 操作 ) ; 

e OpenBlas (支持 线性 戴 氏 操作 ) ; 

e CuDNN (提供 Deep Neural Network 库 ) 。 

(5) buildMXNet 源 代 码 

e 从 GitHub 下 载 MXNet 源 代 码 ; 

e 用 CMake 在 /build 创建 Visual Studio 解决 方案 ; 

e 打开 .sln 并 编译 ， 产 生 的 库 称 为 mxnet dl， 存 放 在 “. /build/Release/” 或 
“. /build/Debug” 文 件 夹 内 。 




















4 ”MXNetR 安装 方法 


(1) 不 使 用 GPU 的 安装 
方案 1: 使 用 prebuilt binary 包 。 
对 于 Windows 和 OS X (Mac) 用 户 ，MXNet 提供 了 prebuilt binary 包 。 该 包 每 周 


更 新 , 在 R 控制 台 安 装 prebuilt binary 包 命令 : 


install. packages( " drat" ,repos = " https://cran. rstudio. com" ) 
drat: : :addRepo( " dmlc" ) 


install. packages( " mxnet" ) 


方案 2: 根据 源 代码 创建 Library 。 
步骤 1. 创建 共享 Library: 根据 MXNet C ++ 源 代码 创建 共享 Library。 
步骤 2. 执行 下 面 命令 安装 MXNet 依赖 软件 并 创建 MXNetR 包 : 


"install. packages\ devtools ,repo 2 https://cran. rstudio. com )" 


Rscript —e 
cd R - package 
Rscript -ee "library( devtools) ; library(methods ) ; 


options( repos = c (CRAN + https://cran. rstudio. com ) ) ; install _ deps ( dependencies = 
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TRUE)" 
cd.. 
makerpkg 





注 : R -package 在 MXNet 中 是 个 文件 夹 。 
下 面 的 命令 创建 MXNetR 包 为 “tar. gz” 文 件 : 


R CMD INSTALLmxnet_0. 7. tar. gz 


(2) 使 用 GPU 的 安装 

为 了 使 用 GPU 安装 MXNet， 需 求 如 下 : 

® Microsoft Visual Studio 2013 ; 

® NVidia CUDA Toolkit; 

e MXNet package; 

e CuDNN (提供 Deep Neural Network 库 ) 。 

从 https://github. com/dmlc/mxnet/ 下 载 的 MXNet 包 是 “* .zip” 文 件 ， 需 要 解 
压 到 "/mxnet/R - package" 文件 夹 内 。 

从 https://github. com/dmlc/mxnet/releases 下 载 最 新 的 CPU - enabled MXNet 包 ， 
解压 到 “/nocudnn” 文 件 夹 内 。 
下 载 并 安装 CuDNN V3。 网 络 获 取 下 载 链接 ， 需 要 注册 为 NVIDIA 用 户 ,， 解压 后 
将 看 到 三 个 文件 夹 “/bin”“/include” 和 “/libp”， 复 制 到 “nocudnn/3rdparty/cudnn/”， 
也 可 以 直接 解压 * . zip 文件 到 “/nocudnn”。 

创建 文件 夹 R - package/inst/libs/x64。MXNet 只 支持 64 位 操作 系统 ， 复 制 以 下 
(. dl) 文件 到 R -package/inst/libs/x64 内 ( 共 11 个 ): 

1) nocudnn/lib/libmxnet. dll。 

2) 文件 夹 nocudnn/3rdparty/directory 下 的 *. dll。 

3) 文件 夹 /bin 下 的 cudnn. dll 和 openblas. dll。 

复制 “nocudnn/include/” 下 文件 到 R - package/inst/。 这 时 有 了 R - package/ 
inst/include/ 等 三 个 子 文件 夹 。 

确保 R 的 安装 路 径 已 在 环境 变量 PATH 中 。 

执行 R CMD INSTALL 

注 : MXNet 库 是 用 Repp 建立 的 。 





























no — multiarch R - package。 





9.2.5 常见 的 安装 问题 


(1) Mac 0S X 错误 信息 
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信息 : link error 14: 没有 找到 lgomp 库 。 

原因 : OpenMP 的 CNU 实例 路 径 不 在 系统 的 library 路 径 。 
解决 : 在 系统 library 路 径 里 添加 OpenMP library 路 径 。 
通过 执行 下 面 命令 创建 局 部 数据 库 : 








sudo launchctl load - w /System/Library/ LaunchDaemons/com. apple. locate. plist 
确定 OpenMP library 路 径 ，locate libgomp. dylib 。 
为 了 把 OpenMP library 路 径 添 加 到 系统 library 路 径 中 ， 用 上 面 的 输出 替换 下 面 
命令 中 的 “path1”: 
ln —s pathl /usr/local/lib/libgomp. dylib 
执行 下 面 命令 完成 路 径 的 添加 : 
make —j$(sysctl -mn hw. ncpu) 
(2) R 错误 信息 
信息 : CUDA 不 能 加 载 MXNet。 


解决 : 如 果 在 安装 MXNet 时 , 已 经 是 CUDA 可 用 ， 仍 不 能 加 载 MXNet， 把 下 面 
的 命令 添加 到 环境 变量 $RHOMEvete/ldpaths 中 。 











export CUDA_HOME = /usr/local/ cuda 
export LD_LIBRARY_PATH =$| CUDA_HOME | /lib64 $ | LD_LIBRARY_PATH) 





注 : 在 R 中， 用 R. home() 查 看 环境 变量 $RHOME。 





9.3 MXNetR 在 深度 学 习 中 的 应 用 


9.3.1 二 分 类 模型 


【 例 9.1】 借用 mxnet 包 中 的 mx. mlp 函数 和 mlbench 包 数 据 设 计 一 个 二 分 类 
网 络 。 

(1) 准备 数据 ， 并 进 ee 

借用 mlbench 包 中 的 一 个 二 分 类 数据 ， 并 且 将 它 分 成 训练 集 和 测试 集 。 
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> require( mlbench ) 

> require( mxnet ) 

> data( Sonar, package = " mlbench" ) 

> Sonar[ ,61 | = as. numeric( Sonar| ,61]) -1 

> train. ind =c(1:50,100:150) 

> train. x = data. matrix( Sonar[ train. ind,1:60 | ) 
> train. y = Sonar| train. ind ,61 ] 

> test. x = data matrix( Sonar[ — train. ind,1:60]) 


> test. y = Sonar[ — train. ind ,61 | 


(2) 建 模 


mxnet 提供 





经 网 络 模型 。 
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> mx. set. seed(0) 


> model <— mx. mlp( train. x, # 训 练 数据 

> train. y, # 响 应 变量 

> hidden_node = 10,， # 隐 藏 层 的 结 点 数量 
> out_node =2， # 输 出 层 的 结 点 

> out_activation = " softmax" ， # 激 活 函 数 


> num. round =20 ， 

> array. batch. size = 15 ， 

> learning. rate =0. 07 ， # 学 习 率 
> momentum =0.9， 

> eval. metric = mx. metric. accuracy 机 员 失 图 数 类 型 
) 

Auto detect layout of input matrix ,userowmajor. . 

Start training with 1 devices 

[1] Train - aceuracy =0. 488888888888889 

[2] Train - aceuracy =0. 514285714285714 

[3] Train - aceuracy =0. 514285714285714 


[18] Train - accuracy =0. 838095238095238 
[19] Train ~ accuracy =0. 838095238095238 





[20] Train ~ accuracy =0. 838095238095238 


t 了 一 个 训练 多 层 神 经 网 络 的 函数 mx. mlp， 可 以 通 





过 它 来 训练 一 个 神 





这 里 要 注意 ， 使 用 mx. set seed 而 不 是 R 自 带 的 set. seed 函数 来 控制 随机 数 。 因 
为 mxnet 的 训练 过 程 可 能 会 运行 在 不 同 的 运算 硬件 上 ， 这 里 需要 一 个 足够 快 的 随机 
数 生成 器 来 管理 整个 随机 数 生 成 的 过 程 。 

(3) 模型 部 署 

模型 训练 好 之 后 ， 可 以 很 简单 地 进行 预测 ; 





> preds = predict( model , test. x) 
Auto detect layout of input matrix ,userowmajor. . 
> pred. label = max. col(t(preds) ) -1 
> table( pred. label , test. y) 
test y 

pred.label 0 1 

0 24 14 

1 36 33 


如 果 进 行 的 是 多 分 类 预测 ，mxnet 的 输出 格式 是 类 数 x 样本 数 。 











9.3.2 回归 模型 与 自 定 义 神 经 网 络 








mx. mlp 接口 固然 很 方便 , 但 是 神经 网 络 的 一 大 特点 便 是 它 的 灵活 性 ,不 同 的 结 
构 可 能 有 着 完全 不 同 的 特性 。mxnet 的 亮点 之 一 便 是 它 赋予 了 用 户 极 大 的 自由 度 ， 从 
而 可 以 任意 定义 需要 的 神经 网 络 结构 。 本 节 用 一 个 简单 的 回归 任务 来 介绍 其 相关 的 
语法 。 

【 例 9.2】 使 用 mxnet 提供 了 “Symbol” 系 统 ， 建 立 回归 预测 模型 。 

(1) 数据 准备 











> data( BostonHousing,package ="mlbench" ) 

>train. ind = seq(1,506,3) 

> train. x = data. matrix( BostonHousing[ train. ind, ~ 14 | ) 
> train. y = BostonHousing| train. ind ,14] 

> test. x = data. matrix( BostonHousing| -train. ind, -14]) 


> test. y = BostonHousing| — train. ind,14] 
(2) 建 模 
mxnet 提供 了 一 个 叫 作 “Symbol” 的 系统 ， 从 而 可 以 定义 结 点 之 间 的 连接 方式 与 
激活 函数 等 参数 。 下 面 是 一 个 定义 没有 隐藏 层 神经 网 络 的 简单 例子 : 
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> data <— mx. symbol. Variable(" data" ) # 定义 输入 数据 
>fcl <- mx. symbol. FullyConnected( data, num_hidden =1) 
> lro <— mx. symbol. LinearRegressionOutput (fc1 ) # 定 义 损 失 陶 数 
在 神经 网 络 中 ， 回 归 与 分 类 的 差别 主要 在 于 输出 层 的 损失 函数 。 这 里 使 用 平方 
误差 来 训练 模型 。 和 希望 进一步 了 解 Symbol 的 读者 可 以 继续 阅读 相关 文档 。 
定义 了 神经 网 络 之 后 ， 便 可 以 使 用 mx. model. FeedForward. create 进行 训练 了 。 








> mx. set seed(0) 
> model <— mx. model. FeedForward. create( lro, 
X = train. x, 
y = train. y, 
ctx = mx. cpu( ) ， 
num. round = 50,， 
array. batch. size =20 ， 
learning. rate =2e -6， 
momentum = 0. 9 ， 
eval. metric = mx. metric. rmse ) 
Auto detect layout of input matrix, userowmajor. . 
Start training with 1 devices 
[1] Train - rmse = 16. 063282524034 
[2] Train - rmse = 12. 2792375712573 
[3] Train ~ rmse =11. 1984634005885 


[48] Train - rmse =8. 26890902770415 
[49] Train ~ rmse =8. 25728089053853 
[50] Train - rmse =8. 24580511500735 


(3) 模型 部 署 
这 里 针对 回归 任务 修改 了 eval. metric 参数 。 模 型 提供 的 评价 函数 包括 “accura- 
cy”“rmse”“mae” 和 “rmsle”， 用 户 也 可 以 针对 需要 自 定 义 评 价 函 数 ， 例 如 : 








> demo. metric. mae <— mx. metric. custom( " mae" ,function(label,pred) | 
res <— mean( abs(label -pred) ) 
return( res) 

}) 


> mx. set. seed (0) 
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> model <— mx. model. FeedForward. create( lro, 

X = train. x, 

y = train. y, 

ctx = mx. cpu( ) ， 

num. round = S0 ， 

array. batch. size = 20 ， 

learning. rate =2e -6， 

momentum = 0. 9， 


eval. metric = demo. metric. mae ) 


Auto detect layout of input matrix ,userowmajor. . 
Start training with 1 devices 

[1] Train - mae = 13. 1889538083225 

[2] Train - mae = 9. 81431959337658 

[3] Train - mae =9.21576419870059 


[48] Train - mae = 6. 41731406417158 
[49] Train - mae = 6.41011292926139 





[50] Train - mae = 6. 40312503493494 


至 此 ，mxnet 使 用 方法 已 经 基本 掌握 了 。9. 3. 3 节 将 介绍 更 有 趣 的 应 用 。 


9. 3.3 手写 数字 竞赛 





【 例 9.3】 以 Kaggle 上 的 手写 数字 数据 集 (MNIST) 竞赛 为 例子 ， 通 过 mxnet 定 
义 卷 积 神经 网 络 ， 并 在 GPU 上 快速 训练 模型 。 

(1) 数据 准备 

从 Kaggle 上 下 载 数据 ， 并 将 它们 放 和 人 “data/” 文 件 夹 中 。 然 后 读 入 数据 ， 并 做 
一 些 预 处 理工 作 。 








> require( mxnet) 

> train <— read. csv\ data/train. csy ,header =TRUE) 
> test <— read. csv( data/test. csy ,header =TRUE) 

> train <— data. matrix ( train ) 


> test <— data. matrix ( test ) 
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> train. x <—train[ , —1] 
>train.y<-train|l ,1 ] 
> train. x <—t( train. x/255) 


> test <—t( test/255) 


最 后 两 行 预 处 理 的 作用 有 两 个 : 

1) 原始 灰 度 图 片 数 值 处 在 [0,255] 之 间 ， 将 其 变换 到 [0,1] 之 间 。 

2) mxnet 接受 像素 X 图 片 的 输入 格式 ， 所 以 对 输入 矩阵 进行 了 转 置 。 

(2) 建 模 

LeNet 神经 网 络 结构 是 由 Yann LeCun 提出 的 ， 并 用 于 识别 手写 数字 ， 也 是 最 
的 卷 积 神经 网 络 之 一 。 同 样 地 ， 这 里 使 用 Symbol 语法 来 定义 ， 不 过 这 个 结构 会 上 














溃 二 


> data <— mx. symbol. Variable( data ) 


# 第 一 个 卷 积 





> convl <— mx. symbol. Convolution( data = data ,kernel =c(5,5),num filter =20) 
> tanhl <— mx. symbol. Activation( data = convl ,act_type = " tanh" ) 
> pooll <— mx. symbol. Pooling( data = tanhl , pool_type = " max" ， 
kernel =c(2,2) ,stride =c(2,2)) 
# 第 二 个 卷 积 





> conv2 <— mx. symbol. Convolution( data = pooll , kernel = ce(5,5), 
num_filter = 50) 

> tanh2 <— mx. symbol. Activation( data = conv2 ,act_type = " tanh" ) 

> pool2 <— mx. symbol. Pooling( data = tanh2 ,pool_type = " max" ， 
kemel =c(2,2) ,stride =c(2,2)) 


# 第 一 个 全 连接 








> flatten <— mx. symbol. Flatten( data = pool2 ) 
>fcl <— mx. symbol. FullyConnected ( data = flatten ,num_hidden = 500) 


> tanh3 <— mx. symbol. Activation( data = fcl ,act_type = "tanh" ) 


# 第 二 个 全 连接 








>fc2 <— mx. symbol. FullyConnected( data = tanh3 , num_hidden = 10) 


> lenet < mx. symbol. SoftmaxOutput( data = fc2 ) ”# 损 失 函 数 


为 了 让 输入 数据 的 格式 能 对 应 LeNet， 需 要 将 数据 变 成 R 中 的 array 格式 。 
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> train. array <— train. x 
> dim( train. array) <— c(28,28,1,ncol(train. x) ) 
> test. array <— test 


> dim( test. array) <—c(28,28,1,ncol( test) ) 





接 下 来 ,分 别 使 用 CPU 和 GPU 来 训练 这 个 模型 ， 从 而 展现 不 同 的 训练 效率 。 


>n. gpu <—1 
> device. cpu <— mx. cpu( ) 


> device. gpu <— lapply(0:(n. gpu —1) ,function(i)| mx. gpu(i)}|) 




















将 GPU 的 每 个 核 以 list 的 格式 传递 进去 ， 如 果 有 BLAS 等 自 带 矩阵 运算 并 行 的 库 
存在 ， 则 没 必 要 对 CPU 这 么 做 了 。 
先 在 CPU 上 进行 训练 ， 只 进行 一 次 迭代 。 


> mx. set. seed(0) 
>tic <— proc. time( ) 
> model <— mx. model. FeedForward. create( lenet, 
X = train. array， 
y = train. y, 
ctx = device. cpu, 
num. round =1,， 
array. batch. size = 100 ， 
learning. rate =0. 05 ， 
momentum =0.9， 
wd = 0. 00001 ， 
eval. metric = mx. metric. accuracy， 


epoch. end. callback = mx. callback. log. train. metric( 100 ) ) 


Start training with 1 devices 

Batch [ 100] Train - aceuracy =0. 1066 

Batch [200] Train - aceuracy =0. 16495 

Batch [ 300] Train - accuracy =0. 401766666666667 
Batch [400] Train - aceuracy =0. 537675 

[1] Train ~ accuracy =0. 557136038186157 


print( proc. time( ) -tic) 
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User system ”elapsed 


130. 030 204.976 83.821 
在 CPU 上 训练 一 次 迭代 一 共 花 了 83 s。 接 下 来 在 GPU 上 训练 5 次 迭代 ，: 


mx. set. seed(0) 
tic <— proc. time( ) 
model <— mx. model. FeedForward. create ( lenet, 
X = train. array， 
y = train. y, 
ctx = device. gpu, 
num. round =5, 
array. batch. size = 100 ， 
learning. rate = 0. 05 ， 
momentum =0.9， 
wd = 0. 00001 ， 
eval. metric = mx. metric. accuracy, 


epoch. end. callback = mx. callback. log. train. metric( 100 ) ) 


Start training with 1 devices 

Batch [ 100] Train - aceuracy =0. 1066 

Batch [200] Train - aceuracy =0. 1596 

Batch [ 300] Train - accuracy =0. 3983 

Batch [400] Train - accuracy =0. 533975 

[1] Train ~ accuracy =0. 553532219570405 

Batch [ 100] Train - accuracy =0. 958 

Batch [ 200] Train - aceuracy =0. 96155 

Batch [ 300] Train ~ accuracy =0. 966100000000001 
Batch [400] Train ~ aceuracy =0. 968550000000003 
[2] Train ~ accuracy = 0. 969071428571432 

Batch [ 100] Train ~ aceuracy =0. 977 

Batch [200] Train - aceuracy =0. 97715 

Batch [ 300] Train ~ aceuracy =0. 979566666666668 
Batch [ 400] Train - accuracy =0. 980900000000003 
[3] Train - accuracy =0. 981309523809527 








Batch [ 100] Train ~ accuracy =0. 9853 
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Batch [200] Train ~ accuracy =0. 985899999999999 
Batch [ 300 |] Train - accuracy =0. 986966666666668 
Batch [400] Train - accuracy =0. 988150000000002 
[4] Train - accuracy =0. 988452380952384 

Batch [ 100] Train - accuracy =0. 990199999999999 
Batch [200] Train - accuracy =0. 98995 

Batch [300] Train ~ accuracy =0. 990600000000001 








Batch [400] Train - accuracy =0. 991325000000002 
[5] Train - accuracy =0. 991523809523812 

> print( proc. time( ) ~ tic) 

user system elapsed 


9.288 1.680 6.889 
在 GPU 上 训练 5 轮 迭 代 只 花 了 不 到 7s,， 快 了 数 十 倍 ! 可 以 看 出 ， 对 于 这 样 的 网 
络 结构 ，GPU 的 加 速效 果 是 非常 显著 的 。 有 了 快速 训练 的 办 法 ， 可 以 很 快 地 做 预测 ， 
并 且 提 交 到 Kaggle 上 。 



































> preds <— predict(model ,test. array ) 

> pred. label <— max. col(t(preds) ) -1 

> submission <— data. frame( Imageld = 1 :ncol( test) ,Label = pred. label) 
> write. csv( submission ,file £ submission. csy ,row. names = FALSE, 


quote = FALSE ) 


9.3.4 图 像 识 别 应 用 





其 实 对 于 神经 网 络 当前 的 应 用 场景 而 言 ， 识 别 手 写 数 字 已 经 不 足 为 奇 。 早 些 时 
候 ，Google 公开 了 一 个 云 API， 让 用 户 能 够 检测 一 幅 图 像 里 面 的 内 容 。 本 节 提 供 一 个 
例子 ， 让 读者 能 够 自制 一 个 图 像 识别 的 在 线 应 用 。 

【 例 9.4】 搭 建 一 个 Shiny 应 用 ， 实 现 物 体 识别 。 

(1) 加 载 依赖 的 包 和 数据 








install. packages( " shiny" ,repos = " https://cran. rstudio. com" ) 


install. packages( " imager" ,repos = " https://cran. rstudio. com" ) 





现在 已 经 配置 好 了 mxnet、shiny 和 imager 三 个 R 包 ,下 一 步 则 是 让 Shiny 直接 下 
载 并 运行 准备 好 的 代码 。 








141 


shiny: :runGitHub( " thirdwing/ mxnet_shiny" ) 


第 一 次 运行 这 个 命令 会 花 上 几 分 钟 时 间 下 载 预 先 训练 好 的 模型 。 训 练 的 模型 叫 




















Inception - BatchNorm Network， 如 果 读 者 对 它 感 兴趣 ， 可 以 阅读 相关 文献 。 准 备 就 绪 
之 后 ,浏览 絮 中 会 出 现 一 个 网 页 应 用 ， 就 能 用 本 地 或 在 线 图 片 来 测试 。 


[headll 











(2) 导入 预 训练 过 的 模型 文件 


> model <— mx. model. load( " Inception/ Inception_BN" ,iteration = 39) 
> synsets <— readLines( "Inception/ synset. txt" ) 


> mean. img <— as. array( mx. nd. load( " Inception/ mean_224. nd" )[[" mean_img" |] ]) 


(3) 图 像 预 处 理 
使 用 一 个 自 定 义 函 数 对 图 像 进 行 预 处 理 ， 这 个 步骤 对 于 神经 网 络 模 型 而 言 至 关 
要 。 





roan 





preproc. image <— function( im, mean. image ) | 
# crop the image 
shape <— dim( im) 
short edge <— min( shape[ 1 :21) 
yy <—floor( (shape[ 1 | -short edge)/2) +1 


yend <—yy + short. edge — 1 





xx <— floor( (shape| 2] -short edge)/2) +1 





xend <—xx + short edge 一 1 

croped <— im[ yy:yend ,xx:xend,, | 

# resize to 224 x 224 ,needed by input of the model. 
resized <— resize( croped ,224 ,224) 

# convert to array( x,y,channel) 

arr <— as. array( resized ) 

人 

#substract the mean 

normed <— ar — mean. img 

# Reshape to format needed bymxnet( width, height, channel, num) 
dim( normed) <—c(224,224,3,1) 

return( normed ) 


| 


(4) 模型 部 署 
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读 人 图 像 ， 预 处 理 与 预测 代码 如 下 : 


im <— load. image(src ) 

normed <— preproc. image( im, mean. img ) 

prob <— predict( model, X = normed ) 

max. idx <— order( prob[ ,1] ,decreasing =TRUE)[1:5] 


result <— synsets[ max. idx | 


9.4 学 习 指 南 





MXNet 是 一 个 在 底层 与 接口 都 有 着 丰富 功能 的 软件 ， 如 果 读 者 对 它 感 兴趣 ， 可 
以 参考 一 些 额外 的 材料 来 进一步 了 解 MXNet。 
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第 10 六 ”word2vec 的 R 语言 实现 


10. 1 word2vec 词 向 量 由 来 





在 word2vec 产生 前 ， 还 有 一 些 语言 模型 ， 起 到 确定 性 作用 的 是 词 向 量 。 在 词 向 
量 提出 之 前 还 有 一 些 基础 性 的 模型 ， 如 统计 语言 模型 、 神 经 网 络 概 率 语言 模型 。 








10.1.1 统计 语 言 模型 


统计 语言 模型 (也 称 为 n 元 模型 ， 或 n - gram) 的 一 般 形式 比较 直观 ， 一 个 基 
本 假设 是 在 不 改变 词语 在 上 下 文中 的 顺序 前 提 下 ， 距 离 相 近 的 词语 关系 越 近 ， 距 离 
较 远 的 词语 关联 度 越 远 ， 当 距离 足够 远 时 ， 词 语 之 间 则 没有 关联 。 

但 该 模型 没有 完全 利用 语 料 的 信息 ， 比 如 : 

1) 没有 考虑 距离 更 远 的 词语 与 当前 词 的 关系 ， 即 超出 范围 n 的 词 被 忽略 了 ,但 
这 两 者 很 可 能 是 有 关系 的 。 

例如 , “华盛顿 是 美国 的 首都 ”是 当前 语句 ， 隔 了 大 于 n 个 词 的 地 方 又 出 现 了 
“北京 是 中 国 的 首都 "， 在 n 元 模型 中 “华盛顿 ”和 “北京 ”是 没有 关系 的 ， 然 而 这 
两 个 句子 却 隐 含 了 语法 及 语义 关系 ， 即 “华盛顿 ”和 “北京 ”都 是 名 词 ， 并 且 分 别 
是 美国 和 中 国 的 首都 。 

2) 忽略 了 词语 之 间 的 相似 性 ， 即 统计 语言 模型 无 法 考虑 词语 的 语法 关系 。 

例如 ， 语 料 中 的 “ 鱼 在 水 中 洲 ” 应 该 能 够 帮助 我 们 产生 “ 马 在 草原 上 跑 ” 这 样 
的 句子 ， 因 为 两 个 句子 中 “人 鱼 ” 和 “ 马 ”、“ 水 ”和 “草原 *”、“ 游 ”和 “ 跑 ”、 
“中 ”和 “上 ”具有 相同 的 语法 特性 。 

而 在 神经 网 络 概率 语言 模型 中 ， 充 分 利用 了 这 两 种 信息 。 
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10.1.2 神经 网 络 概率 语言 模型 


神经 网 络 概率 语言 模型 (Neural Network Language Model，NNLM) 是 一 种 新 兴 的 
自然 语言 处 理 算法 ， 该 模型 通过 学 习 训练 语 料 获 取 词 向 量 和 概率 密度 函数 。 词 向 量 
是 多 维 实数 向 量 ， 向 量 中 包含 了 自然 语言 中 的 语义 和 语法 关系 ， 词 向 量 之 间 余 弦 距 离 
的 大 小 代表 了 词语 之 间 关 系 的 远近 ， 词 向 量 的 加 减 运 算 则 是 计算 机 在 “ 遗 词 造句 ”。 

如 今 在 架构 方面 有 比 NNLM 更 简单 的 CBOW 模型 、Skip - gram 模型 ， 其 次 在 训 
练 方面 ， 出 现 了 分 层 Softmax 算法 、 负 采样 算法 ， 以 及 为 了 减 小 频繁 词 对 结果 准确 性 
和 训练 速度 的 影响 而 引入 的 欠 采 样 (Subsumpling) 技术 。 

图 10. 1 给 出 了 基于 三 层 神经 网 络 的 自然 语言 估计 模型 。 它 可 以 计算 某 一 个 上 下 
文 的 下 一 个 词 为 ww 的 概率 ， 即 (w, =i | context) ， 词 向 量 是 其 训练 的 副 产 物 。NNLM 
根据 语料库 C 生成 对 应 的 词汇 表 V。 

















第 i 层 输出 =P(wailcontext) 


Softmax 分 类 器 





Went+l Wi-2 Wi-l 


图 10.1 三 层 NNLM 


10.2 word2vec 词 身 量 特征 提取 模型 





10.2.1 词 向 量 














先 解释 一 下 词 向 量 : 将 词 用 “ 词 向 量 ” 的 方式 表示 可 谓 是 将 深度 学 习 算 法 引入 
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自然 语言 处 理 (NLP) 领域 的 一 个 核心 技术 。 自 然 语言 理解 问题 转化 为 机 器 学 习 问 
题 的 第 一 步 都 是 通过 一 种 方法 把 这 些 符号 数学 化 。 

词 向 量具 有 良好 的 语义 特性 ， 是 表示 词语 特征 的 常用 方式 。 词 向 量 的 每 一 维 的 
值 代 表 一 个 具有 一 定 的 语义 和 语法 上 解释 的 特征 ， 故 可 以 将 词 向 量 的 每 一 维 称 为 一 
个 词语 特征 。 词 癌 量 是 一 种 词 的 分 布 式 表示 方法 ， 是 一 种 低 维 实数 向 量 。 

例如 ，NLP 中 最 直观 、 最 常用 的 词 表 示 方 法 是 One - hot。 每 个 词 用 一 个 很 长 的 
句 量 (字典 的 个 数 ) 表示 ， 绝 大 多 数 是 0， 只 有 一 个 维度 是 1， 代表 当前 词 在 字典 中 
的 位 置 。 例 如 ,“ 话 简 ” 表 示 为 [0001000000000000…]。 

但 这 种 One - hot 表示 的 是 稀 玻 答 阵 ， 在 解决 某 些 任务 时 会 造成 维 数 灾难 ， 而 使 
用 低 维 的 词 向 量 就 很 好 地 解决 了 该 问题 。 同 时 从 实践 上 看 ， 高 维 的 特征 如 果 要 套用 
深度 学 习 算 法 ， 其 复杂 度 几乎 是 难以 接受 的 。 

分 布 式 表示 的 低 维 实数 向 量 ， 如 [0.792 ,0. 177 ,0. 107 ,0. 109 ,0. 542 ,…] ， 它 让 
相似 或 相关 的 词 在 距离 上 更 加 接近 。 它 的 每 一 维 表示 词语 的 一 个 潜在 特征 ， 该 特征 
捕获 了 有 用 的 句法 和 语义 特征 。 其 特点 是 将 词语 的 不 同 句 法 和 语义 特征 分 布 到 它 的 
每 一 个 维度 上 来 表示 。 

再 来 看 看 结合 深度 学 习 算 法 的 词 向 量 是 如 何 获取 的 。 谈 到 word2vec 的 词 向 量 ， 
就 得 提 到 两 个 模型 一 一 CBOW (Continuous Bag - 0f - Words， 即 连续 的 词 袋 ) 以 及 
Skip - gram 模型 。 这 两 个 模型 都 是 根据 上 下 文 词 ， 来 推 新 当前 词 发 生 的 概率 。 可 以 
实现 两 个 基本 目标 : 一 是 这 句 话 是 否 是 自然 语句 ; 二 是 获得 词 向 量 。 图 10. 2 示意 的 
是 CBOW 模型 结构 ， 图 10. 3 示意 的 是 Skip - gram 模型 结构 。 










































































































































































输入 层 发 射 层 输出 层 输入 层 发 射 层 输出 层 
w(t—2) w(t—2) 
w(t—1) SUM w(t—1) 

w(t) w(?) 
w(t+1) w(t+1) 
w(t+2) w(t1+2) 
图 10.2 CBOW 模型 结构 图 10.3 Skip - gram 模型 结构 








10.2.2 CBOW 的 分 层 网 络 结构 一 一 HCBOW 








图 10.4 示意 了 CBOW 的 分 层 网 络 结构 ， 其 中 第 一 层 ， 也 就 是 最 上 面 的 那 一 层 称 
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为 输入 层 。 输 入 的 是 若干 个 词 的 词 向 量 ， 在 神经 网 络 概率 语言 模型 中 ， 从 隐 含 层 到 
输出 层 的 计算 量 是 主要 影响 训练 效率 的 地 方 ，CBOW 和 Skip - gram 模型 考虑 去 掉 隐 
含 屋 。 实 践 证 明 ， 新 训练 的 词 向 量 的 精确 度 可 能 不 如 NNLM 模型 (具有 隐 含 层 ) ， 但 
可 以 通过 增加 训练 语 料 的 方法 来 完善 。 第 三 层 是 方 框 里 面 的 二 又 树 ， 叫 替 夫 曼 树 ， 
下 代表 一 个 词 ， 到 ,代表 非 叶子 结 点 ， 是 一 类 词 的 集合 ， 可 以 继续 分 下 去 。 






































图 10.4 HCBOW 网 络 结构 

















这 个 网 络 结构 的 功能 是 一 一 判断 一 句 话 是 否 是 自然 语言 。 怎 么 判断 呢 ? 使 用 的 
是 概率 ， 就 是 计算 “一 列 词 的 组 合 ” 这 句 话 的 概率 的 连 乘 (联合 概率 ) 是 多 少 ， 如 
果 比 较 低 ， 那 么 就 可 以 认为 不 是 一 句 自然 语言 ， 如 果 概 率 高 ， 就 是 一 句 正常 的 话 。 

为 描述 方便 ， 引 入 一 些 记 号 : 

p": 从 根 结 点 出 发 到 达 w 对 应 结 点 的 路 径 。 

:路 径 p" 中 包含 结 点 的 个 数 。 

PN 路径 六 中 天 个 结 点 。 

ds ,dy ,…,d%e 10,1|: 词 w 的 替 夫 曼 编 码 ， 它 由 -1 位 构成 ,dr 表示 路 径 六 
中 第 i 个 结 点 对 应 的 编码 ( 根 结 点 不 对 应 编码 ) 。 

0" ,0 ,…,0", |, e R": 路 径 p" 中 非 叶 子 结 点 对 应 的 向 量 ，0* 表示 路 径 p" 中 第 i 
个 非 叶 子 结 点 对 应 的 向 量 。 
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图 10.5 显示 了 和 霍 夫 曼 编码 对 应 符号 解释 的 例子 。 

















足球 世界 杯 


图 10.5 霍 夫 曼 编码 的 例子 





以 图 10. 5 为 例 解释 引入 的 记号 : ww = “足球 ”, 严 =5,， p*、p*、p*、p*、p* 为 路 
径 p” 上 的 5 个 结 点 ， 弄 、d、d、d 分 别 为 1、0、0、1， 即 “足球 ”的 霍 夫 曼 编码 
1001，0*、、0* 、0; 分 别 表示 路 径 p* 上 4 个 非 叶子 结 点 对 应 的 向 量 。 

那么 ， 在 图 10. 5 所 示 网 络 结构 下 ， 如 何 计算 p(w | Context(w) )? 即 如 何 利用 向 
量 x, 以 及 霍 夫 曼 树 计算 p(w | Context(w))。 

以 图 10.5 中 词 “ 足 球 ” 为 例 ， 从 根 结 点 到 达 “ 足 球 ”这 个 叶子 结 点 ， 中 间 经 历 
了 4 次 二 分 类 ， 左 为 正 类 ， 右 为 负 类 。 由 于 一 个 结 点 被 分 为 负 类 的 概率 为 








o(x.0) = L 
1 +Te 于 
一 个 结 点 被 分 为 正 类 的 概率 为 
1-o(x.0) 


所 以 ， 第 1 次 分 类 概率 为 
PC |x,,07) =1 -0(x.0) 


第 2 次 分 类 概率 为 
pds zw 及) =0(x,0;) 
第 3 次 分 类 概率 为 
plds 人) =1 -0(x.0) 
第 4 次 分 类 概率 为 
plds |x,,07) =0(x,0;) 
则 有 
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7( 足 球 | Comniext( 足 球 ) ) = [pe |x,,0") 


应 用 HCBOW， 需 要 清楚 以 下 问题 . 

(1) p(w | Contexi(w)) 计算 

对 字典 D 中 的 任意 词 w， 霍 夫 曼 树 必 存 在 一 条 从 根 结 点 到 词 w 的 唯一 路 径 p"， 
路 径 p" 上 存在 7 -1 的 分 支 。 将 每 个 分 支 看 作 一 次 二 分 类 ， 每 次 分 类 产生 一 个 概率 ， 
将 这 些 概 率 连 乘 起 来 就 是 所 需 的 概率 : 





而 
p(w | Context(w) ) = llp(a |x,,0",) 
j=2 


其 中 
CCxzeg7 1) ， di =0 
play |xus0r a) 
1-o(x'0",), d=1 
或 写成 


pld” |x,,01) = [o(x,0".1) 外 :2 阿 -0o(x,O" ) ]” 
(2) 参数 修正 
对 数 似 然 目标 函数 为 
L(w,]) = > logp(w | Context(w)) 
weC 
i 
= > 2 (1 -ad)loglo(xs0)] + d/log[l -~ o(xs0",)] 

weC j=2 

所 以 ， 目标 函数 梯度 为 


Ws)) 0 (1 dr)loglo(xt0",)] + drlog[1l -xb | 
900 00 ! 7 7 j 


=(1-d)[1l-o(x0) x, -dro(x,O" 1)x, 
=[1-d? -0o(x,0") ]x, 
同 理 ， 利 用 L(w,) 中 x,。 和 0 ,的 对 称 性 ， 有 
{1d ors0m) 0 
利用 随机 梯度 上 升 修正 参数 ，0* 的 修正 公式 为 
0 1=0 ,+n[1-d -oo(x,0) ]x, 
式 中 ,7 为 学 习 率 。 
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v(W) = vwW) 十 人 并 1 ， We Context(w) 





由 于 x 是 vw) 的 和 ， 所 以 要 把 之 sew) 贡献 到 Context(w) 中 每 一 个 词 向 


w 


量 上 。 


(3) 伪 代 码 


X= > v(u) 


ue Context( w) 
FOR j=2 TO 天 DO 
la=0o(x,0") 
b=n(1-d" -a) 
e:=e +b0", 
0% 1:=0° 1 + br, 
| 
FOR ve Context(w) DO 


lv(u):=v(u) +el 


10. 2. 3 ”word2vec 流程 


word2vec 算法 流程 如 图 10.6 所 示 。 


词 频 
统计 











P(wi1, wa, 






贝 叶 斯 公式 
计算 
p(wilContext(wi)) 


计算 

pwilWwitl, WI) 

=F(w, Context(w),0) 

以 <Context(w),w> 


为 训练 样本 


图 10.6 word2vec 算法 流程 
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训练 CBOW 流程 如 图 10.7 所 示 。 


否 
定义 词 标注 函数 LOw) 


图 10.7 训练 CBOW 流程 















计算 Z 的 两 个 梯度 


更 新 9 和 v(w) 



























10.3 word2vec 的 及 实现 


10. 3.1 tmcn. word2vec 包 








tmcn. word2vec 包 只 有 两 个 函数 : 一 个 是 word2vec; 一 个 是 计算 单词 之 间 cos 中 
离 的 函数 。 这 两 个 函数 基本 没什么 附加 的 参数 可 以 调节 。 
包 的 下 载 地 址 可 见 链接 :https://r -forge. r - project. org/ R/? group_ id =1571。 


> install. packages( "tmen. word2vec" ,repos = " http://R - Forge. R — project. org" ) 


包 中 有 如 下 三 个 demo 案例 : 
(1) 第 一 个 demo 
第 一 个 是 英文 的 word2vec 方法 的 列举 。 





> require( tmen. word2vec ) 
# English characters 
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> TrainingFilel <— system. file( "examples" ," rfaq. txt" ,package = 
"tmcn. word2vec" ) 

> ModelFilel <— file. path( tempdir( ) ," output" ," modell. bin" ) 

> resl <— word2vec( TrainingFilel ,ModelFilel ) 

> distl <— distance( resl $model_file, " object" ) 


> nrow( distl ) 


使 用 word2vec 之 前 ， 需 要 设置 输入 语料库 文件 (train_file) 以 及 输出 存放 的 文 
件 (output_file)。 其 中 modell. bin 文件 是 二 进 制 存储 数据 的 方式 。 

distance 代表 在 word2vec 所 得 到 的 词 向 量 中 , “object” 词 与 其 他 单词 之 间 的 距离 
(一 般 采 用 CosDist 距离 ) 。 该 函数 给 出 了 与 object 最 近 的 20 个 词语 。 

(2) 第 二 个 demo 

第 二 个 demo 是 中 文 内 容 ， 以 金庸 的 小 说 为 输入 预料 。 











> TrainingFile2 <— system. file( "examples" ," xsfh_GBK. txt" ,package = 
"tmcn. word2vec" ) 

> ModelFile2 <— file. path( tempdir( ) ," output" ," model2. bin" ) 

> res2 <— word2vec( TrainingFile2 ,ModelFile2 ) 


训练 语 料 访问 : 


file. /R -3.2. 2/library/tmen. word2vec/examples/xsfh_GBK. txt 
Vocab size:1145 
Words in train file:27824 
Alpha:0. 000000 Progress:790.77% Words/thread/sec:22.69k The model was generated 
这 C:/Users/long/ AppData/ Local/ Temp/ Rtmpm460Qd/ output ! 
> dist2 <— distance( res2 $ model file,intToUtf{8 (c(33495 ,20154 ,20964) ) ) 
Word:?7?7? Position in vocabulary :316 

Word CosDist 
1 可 是 0.3918099 
2 呼 ”0. 2853436 
3 踏 ”0.2702354 
4 多 0.2539852 
5 眼光 0.2498445 
6 较 0.2495218 
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7 ， 盒 0.2491589 
8 群雄 0. 2380990 
9 后 面 ”0.2367072 
10 “ 几 0.2354743 
11 一 只 0.2346973 
12 一 齐 0. 2282183 
13 ” 夺 0.2276031 
14 ”他 0.2262077 
15</s> 0.2241129 
16 一 招 0.2232552 
17 双 刀 0.2226523 
18 ” 救 ”0.2194796 
19 学 0.2124971 
20 即 0.2113202 











代码 解读 : 输入 的 i we intToUtfg (ec(33495 ,20154 ,20964) ) 是 一 














“ 苗 人 凤 ”。 运算 得 出 了 与 其 最 近 的 词 ， 看 前 20 个 词 似乎 没有 什么 特 
别 有 用 的 信息 。 


(3) 第 三 个 demo 代码 


# Chinese characters in UTF -8 encoding ,for * nix 

> TrainingFile3 <— system. file( "examples" ,"xsfh_UTF8. txt" ,package = 
"tmcn. word2vec" ) 

> ModelFile3 <— file. path( tempdir( ) ," output" ," model3. bin" ) 

> res3 <— word2vec( TrainingFile3, ModelFile3 ) 

> dist3 <— distance( res3 $ model file,intToUtf8(c(33495 ,20154,20964))) 


10. 3. 2 ”word2vec 自 编译 函数 





自 编译 函数 需要 自己 设置 环境 ， 只 有 两 个 函数 : word2vec 和 distance。 注 意 事项 
如 下 : 

1) 仔细 阅读 “. c. call extensions. pdf ”文件 ， 该 文件 详细 写 出 了 如 何在 计算 机 中 
搭建 一 个 适用 于 R 语言 的 二 进 制 数据 库 。 

2) Windows 系统 下 ， 需 要 下 载 “Ritools. exe” 文 件 ， 并 改变 环境 变量 的 路 径 ， 
同时 重启 计算 机 。 
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3) 查看 train_word2vec. R， 其 中 有 在 R 中 如 何 调用 word2vec 的 API。 

具体 的 可 以 从 http://download. csdn. net/download/sinat_26917383/ 9513075 下 载 
得 到 完整 的 自 编译 函数 、 说 明 以 及 上 述 提 到 的 PDF 文档 。 

e word2vec 函数 


> word2vec <— function( train_file ,output_file ， 





binary = 1 ， # 输 出 格式 ,1 一 binary ,0 一 txt 

cbow =0， # 训 练 算法 ,0 一 n - gram 模型 ,1 一 词 袋 模型 (CBOW) 
num_threads =1, # 线 程 数 

num_features =300， # 输 出 的 词 向 量 维 数 

window = 10， # 窗 口 大 小 

min_count =40 ， # 最 低 词 频 ,默认 为 5 

sample =le-3， # 下 采样 阔 值 ( 词 频 下 限 ,建议 .00001 -.01) 





classes =0) 


除了 上 面 所 提 到 的 参数 ， 还 有 : 

QD alpha 表示 学 习 速 率 。 

@) classes 表示 词 聚 类 簇 的 个 数 ， 从 相关 源码 中 可 以 得 出 ， 该 聚 类 一 般 采 用 
k - means 算法 ， 模 型 训练 完成 之 后 ， 得 到 了 . bin 这 个 词 向 量 文 件 ， 文 件 的 存储 类 型 
由 binary 参数 决定 ， 如 果 为 0, 便 可 以 直接 用 编辑 器 打开 ， 进 行 查看 。 

e distance 函数 

其 中 word2vec 中 提供 了 distance 求 词 的 cosine 相似 度 ， 并 排序 。 也 可 以 在 训练 
时 ， 设 置 - classes 参数 来 指定 聚 类 的 复 个 数 ， 使 用 kmeans 进行 聚 类 。 

由 于 word2vec 计算 的 是 余弦 值 ， 距 离 范 围 为 0 ~1 之 间 ， 值 越 大 代表 这 两 个 词 关 
联 度 越 高 ， 所 以 越 排 在 上 面 的 词 与 输入 的 词 越 紧 密 。 















































distance( file_name , word , size ) 





输出 是 一 个 list， 然 后 可 以 得 到 cos 距离 。 





10. 3.3 使 用 tmcn. word2vec 和 word2vec 注意 的 问题 


1) word2vec 的 自 编译 函数 在 使 用 时 也 需要 加 载 tmen. word2vec 包 ， 否则 会 出 现 
以 下 error: 


Error in . C("CWrapper_word2vec" ,train_file = as. character(train_file ) ， 
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C symbol name "CWrapper_word2vec" not in load table 


2) tmcn. word2vec 与 word2vec 自 编 译 互 补 。 在 require ( tmen. word2vec) 之 后 ， 
可 以 直接 调用 word2veec 函数 ， 自 编译 函数 也 可 以 调节 参数 ， 而 且 有 一 个 特殊 的 功能 ， 
可 以 自行 聚 类 ， 并 且 可 以 通过 cbow =0 的 参数 选择 使 用 CBOW 模型 还 是 Skip - gram 
模型 ， 通 过 binary =0 参数 可 以 调整 输出 的 是 txt 文件 ， 而 tmcn. word2vec 包 中 输出 只 
有 .bin 文件 ， 难 以 读 取 。 

3) tmcn. word2vec 与 word2vec 自 编 译 中 两 个 word2vec 生成 不 一 样 的 语料库 ， 同 
时 执行 distance 函数 之 后 也 计算 不 一 样 的 词 距 离 。 语 料 库 不 同 的 原因 ， 也 许 是 因为 
CBOW 模型 与 Skip - gram 模型 在 抽取 近邻 词 的 时 候 采 用 随机 抽样 的 方法 ， 所 以 会 产 
生 不 一 样 的 结 

4) 最 佳 的 使 用 tmcn. word2vec 步骤 : 加 载 包 (require (tmcn. word2vec) ) 、 执 行 
自 编译 函数 (word2vec/distance) 、 设 定 随 机 数 (set. seed) 这 很 关键 ,会 影响 输出 结 
果 ) 、 用 自 编译 函数 来 执行 分 析 任务 (选择 模型 、 是 否 聚 类 、 是 否 输出 txt 文件 、 词 
维度 和 词 数量 等 ) 。 












































10.4 学 习 指 南 








2013 年 ，Google 发 布 的 word2vec 工具 是 深度 学 习 在 自然 语言 领域 的 一 项 了 不 起 
的 应 用 。 基 于 word2vec 还 出 现 了 doc2vec。word2vec 只 考虑 了 单词 上 下 文 的 语义 , 但 
doc2vec 不 仅 考虑 了 单词 上 下 文 的 语义 ， 还 考虑 了 单词 在 段落 中 的 顺序 。 
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11.1 darch 包 





darch 包 是 建立 于 Hinton 和 Salakhutdinov 的 MATLAB 代码 之 上 的 ， 其 实现 方法 包 
括 了 对 比 散 度 预 训练 算法 和 微调 算法 (如 反 向 传播 法 或 共 轧 梯度 法 ) 。 
darch (x, # 输 入 数据 矩阵 或 data. frame( 默认 ) 
y # 目 标 数据 矩阵 或 data. frame ,依赖 于 x 是 矩阵 还 是 data. frame 而 定 
layers = 10 ， # 每 一 层 神经 元 数量 
layers 是 一 个 向 量 。 默 认 是 c(a,10,5)， 其 中 a 是 训练 数据 的 列 数 ; 5 是 目标 的 
列 数 。 如 果 这 个 长 度 为 1， 那么 它 就 作为 隐藏 层 神经 元 的 数量 ， 而 不 是 层 的 数量 。 

































































autosave = 下 ， # 微 调 阶段 是 否 自动 保存 激活 的 darch 实例 文件 
autosave. epochs = round( darch. numEpochs/20) ， # 在 多 少 次 迭代 后 应 该 自动 保存 ， 

# 默 认 是 51, 每 次 迭代 完成 3 个 微调 ,网 络 才 会 保存 一 次 
autosave. dir =". /darch. autosave" , # 自 动 保存 实例 文件 的 目录 

















bp. learnRate =1, # 反 向 传播 的 学 习 速 率 。 当 每 一 层 使 用 不 同 的 学 习 率 ， 
# 长 度 要 人 么 为 1, 要 么 等 于 权重 矩阵 
bp. learnRateScale =1 ， # 每 次 迭代 后 ,学 习 速 率 乘 以 这 个 值 
bootstrap = 下 ， # 是 否 使 用 启动 命令 创建 一 个 来 自 所 给 的 训练 数 























# 据 的 训练 和 验证 数据 集 





bootstrap. unique =T,， 


bootstrap. unique 表示 是 否 采 用 特定 的 样本 用 于 训练 (默认 为 TRUE1)， 如 果 取 
值 FALSE， 则 采用 所 有 样本 用 于 训练 。 采 用 所 有 样本 将 导致 训练 开销 增 大 。 注 意 : 
如 果 bootstrap. num 大 于 0 ，bootstrap. unique 选项 将 被 忽略 。 
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bootstrap. num = 0 ， # 如 果 大 于 0 ,将 不 重复 抽取 训练 样本 

















cg. length =2 ， # 搜 索 的 数量 

cg. switchLayers =1, # 表 明 什么 时 候 训 练 整个 网 络 ,而 不 是 仅仅 上 面 两 层 

darch = NULL, # 是 否 要 恢复 darch 实例 

darch. batchSize = 1 ， # 块 的 大 小 , 即 在 权重 更 新 之 前 呈 递 给 网 络 的 训练 
# 样 本 的 数量 

darch. dither = 下 ， # 训 练 输入 数据 中 是 否 包 含 数值 列 

darch. dropout =0， # 丢 失 率 ,如 果 一 个 元 素 丢 失 , 输 入 的 丢失 就 会 被 设 
# 置 成 0 

darch. dropout dropConnect = 下 ， # 是 和 否 对 隐藏 层 使 用 DropConnect 而 不 是 丢弃 





darch. dropout. momentMatching = 0， # 丢 弃 期 间 进 行 迭 代 的 次 数 ,0 禁用 时 刻 匹配 
darch. dropout oneMaskPerEpoch =F, # 每 次 迭代 是 否 生 成 一 个 新 的 mask 














darch. elu. alpha = 1 ， # 指 数 线性 单元 函数 的 a 参数 

darch. errorFunction = if( darch. isClass) crossEntropyError else mseError, 
# 微 调 使 用 的 误差 函数 

darch. finalMomentum =0. 9 ， # 微 调 阶 段 最 后 的 动量 











darch. fineTuneF unction = backpropagation ， 








darch. fineTuneFunction 表示 微调 函数 。 可 能 的 取 值 包括 backpropag - ation ( 默 
认 ) 、rpropagation 、minimizeClassifier 和 minimizeAutoencoder( 非 监督 学 习 )。 
darch. initialMomentum =0. 5 ， # 微 调 阶段 的 初始 动量 
darch. isClass =T, # 微 调 阶段 输出 是 否 应 该 被 视 作 类 标签 


darch. maxout. poolSize =2,， # 当 使 用 maxout 激活 函数 时 , 池 化 的 尺寸 (maxout) 


darch. maxout. unitFunction = linearUnit ,#maxout 使 用 的 初始 值 




















darch. momentumRampLength = 1 ， 


darch. momentumRampLength 参数 与 训练 阶段 的 总 体 数量 有 关 ， 即 多 少 个 阶段 后 ， 
动量 应 该 达到 darch. finalMomentum? 值 为 1 表明 应 该 在 最 后 时 期 达到 darch. finalMo- 
mentum， 值 为 0.5 表明 应 该 在 一 半 的 训练 完成 后 达到 darch. finalMomentum。 注 意 ， 
如 果 训 练 恢复 到 darch. initialMomentum 和 darch. finalMomentum 相同 的 参数 ， 这 将 导 
致 动量 坡 道 中 的 碰撞 。 在 恢复 训练 时 ， 可 将 darch. momentumRampLength 设置 为 0 以 
避免 这 一 问题 。 
































darch. nesterovMomentum = 了 ， # 是 否 使 用 Nesterov 加 速 
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darch. numEpochs = 100 ， # 微 调 的 次 数 
darch. returnBestModel = 了 ， # 在 训练 的 最 后 是 否 返回 最 好 的 模型 , 而 不 是 在 微调 后 


darch. returnBestModel. validationErrorFactor =1 -exp( —1), 


当 使 用 验证 数据 评估 模型 时 ， 与 训练 错 相 比 ， 验 证 错误 应 该 被 赋予 多 高 的 值 ? 





个 值 介 于 0 到 1 之 间 。 上 默认 情况 下 ， 这 个 值 是 1 - 一。 训练 误 差 因素 和 验证 误差 因 


这 
素 总 会 增加 到 1。 因 此 ， 如 果 在 这 里 超过 了 1 ， Ng 如 果 在 这 里 超 
过 了 0， 验证 误差 将 会 被 忽略 。 


darch. stopClassErr =— Inf， # 当 分 类 错误 低 于 该 值 ,训练 就 停止 

darch. stopErr =— Inf， # 当 错误 函数 低 于 该 值 ,训练 就 会 停止 

darch. stopValidClassErr = 一 Inf, # 当 验证 数据 上 的 分 类 错误 低 于 该 值 ,训练 就 会 停止 
darch. stopValidErr =— Inf, # 当 验证 数据 上 的 误差 函数 的 值 低 于 该 值 ,训练 就 会 停止 
darch. trainLayers =T, # 是 否 训练 所 有 层 











darch. unitFunction = sigmoidUnit, 


层 1 的 长 度数 的 层 函 数 或 者 层 向 量 函 数 。 注 意 : 第 一 个 条 目 表 明 层 1 和 层 2 之 
间 的 层 函 数 ， 也 就 是 层 2 的 输出 ; 层 1 没有 层 函 数 ， 因 为 输入 值 被 直接 使 用 。 可 能 
的 函数 包括 linearUnit、 sigmoidUnit 、tanhUnit 、rectifiedLinearUnit 、softplusUnit 、 soft- 








maxUnit 和 maxoutUnit 。 


darch. weightDecay =0， # 权 重 衰减 系数 ,默认 是 0 
darch. weightUpdateFunction = weightDecay WeightUpdate, 
权重 更 新 函数 或 者 权重 向 量 更 新 也 数 darch. weightUpdateFunction 与 darch. unitFunction 
非常 相似 ， 权 重 更 新 水 数 包 括 weightDecayWeightUpdate 和 maxoutWeightUpdate。 
注意 : maxoutWeightUpdate 必须 在 maxout 激活 函数 之 后 使 用 。 








dataSet = NULL, # 来 源 于 darch. DataSet( ) , 可 以 手动 指定 
dataSetValid = NULL, #DataSet 包含 验证 数据 的 实例 


generateW eightsFunction = generateWeightsGlorotUniform, 

# 层 1 长 度数 的 权重 产生 函数 或 者 层 向 量 产 生 兄 数 

gputools =F， # 是 否 对 和 矩阵 乘法 使 用 gputools 
gputools. deviceld =0, # 指 定 用 于 GPU 混合 乘法 使 用 的 设备 
logLevel = NULL, 


























logLevel 表示 futile. logger 日 志 级 别 。 默 认 使 用 当前 设 定 的 日 志 级 别 ， 如 果 没 有 
758 





被 改变 则 是 futile. logger: :flog. info。 其 他 可 能 的 等 级 (从 最 精简 到 最 详细 ) 包括 FA- 
TAL、ERROR、WARN、DEBUG 和 TRACE 。 





























normalizeWeights = 下 ， # 是 否 归 一 化 权重 

normalize WeightsBound = 15, # 收 益 权 重 向 量 的 L2 norm 上 界 

preProc. factorToNumeric =F, # 是 否 把 因子 都 要 转换 成 数值 型 

preProc. factorToNumeric. targets =F， # 是 否 所 有 的 因子 都 要 转换 成 目标 数据 中 的 数值 型 
preProc. fullRank =T, # 是 否 使 用 满 秩 编码 

preProc. fullRank. targets =F, # 是 否 使 用 目标 数据 的 满 秩 编 码 

preProc. orderedToFactor targets =T， # 目 标 数据 中 的 有 序 因子 转换 成 无 序 因 子 








注意 : 有 序 因 子 通过 dummyVars 转换 成 数值 型 ， 而 且 不 再 用 于 分 类 任务 。 


preProc. params = 了 ， # 传 递 给 preProcess 函数 的 参数 列表 


preProc. targets = 上 ， 








preProc. targets 表示 是 否 以 目标 数据 为 中 心 ， 是 否 扩展 。 与 preProc. params 不 同 ， 
当 预 测 新 数据 时 ， 由 于 这 一 预 处 理 必须 恢复 ， 所 以 这 仅仅 是 一 种 用 于 目标 数据 使 用 
和 关闭 的 逻辑 转换 预 处 理 。 对 于 回归 任务 最 有 用 。 

注意 : 这 将 使 原始 网 络 倾斜 。 








rbm. allData = 上 ， # 是 否 将 训练 和 验证 数据 用 于 预 训练 
rbm. batchSize = ] ， # 训 练 块 的 大 小 


rbm. consecutive = 了 ， 








rbm. consecutive 表示 是 否 一 次 rbm. numEpochs 阶段 (TRUE， 默 认 ) 训练 一 个 


RBMs 或 者 一 阶段 交替 训练 每 个 RBM (FALSE ) 。 
rbm. errorF unction = mseError, 


rbm. errorFunction 表示 预 训练 期 间 的 误差 图 数 。 这 仅仅 用 于 评估 RBM 误差 ,不 
影响 训练 本 身 。 可 能 的 误差 图 数 包括 mseError 和 rmseError。 


rbm. finalMomentum =0.9， # 预 训练 期 间 的 最 后 动量 
rbm. initialMomentum =0. 5 ， # 预 训练 期 间 的 初始 动量 





rbm. lastLayer = 0 ， 


rbm. lastLayer 表明 在 哪 一 层 停 止 预 训练 。 可 能 的 取 值 包括 0， 意 味 着 训练 所 有 


层 ; 正 整 数 ， 意 味 着 RBM 中 rbm. lastLayer 形成 可 见 层 之 后 停止 训练 ; 负 整 数 ， 意 味 
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着 在 来 源 于 顶层 RBM 的 rbm. lastLayer RBM 停止 训练 。 


rbm. learnRate =1,， 
rbm. learnRateScale =1,， 


rbm. momentumRampLength = ] ， 


rbm. momentumRampLength 参数 表示 多 少 个 与 rbm. numEpochs 相关 阶段 后 5 动量 





# 预 训练 期 间 的 学 习 速 率 
# 每 个 阶段 后 学 习 速率 将 会 乘 以 这 个 值 








应 该 达到 rbm. finalMomentum? 值 为 1 表明 rbm. finalMomentum 应 该 在 最 后 阶段 达到 ， 
值 0.5 表明 rbm. finalMomentum 应 该 在 训练 完成 一 半 时 达到 。 


rbm. numCD =1， 


rbm. numEpochs =0， 


迭 
rbm. unitFunction = sigmoidUnitRbm ,# 预 训练 函数 


rbm. updateFunction = rtbmUpdate, 
rbm. weightDecay =2e -04， 


retainData = 上 ， 


rprop. decFact =0. 5 ， 

rprop. incFact =1.2， 

rprop. initDelta = 1/80, 
rprop. maxDelta = 50 ， 

rprop. method = "iRprop + " ， 
rprop. minDelta = le - 00 ， 
seed = NULL, 


shuffleTrainData =T, 
weights. max =0. 1 ， 
weights. mean =0,， 
weights. min =—0. 1, 
weights. sd =0. 01, 
xValid = NULL, 


yValid = NULL 


) 
【 例 11.1】 训练 有 效 误差 测试 。 
> library( darch) 
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# 执 行 对 比 差异 的 完整 步 又 数 , 增 加 该 值 会 大 幅 减缓 


练 
# 预 训练 3 


# 训 











# 预 训练 期 间 的 更 新 函数 
# 预 训练 权重 衰变 

练 之 后 是 否 存 储 darch 实例 中 的 训练 数据 
| 练 因子 ,默认 是 0.6 

# 增 加 训练 因子 ,默认 是 1.2 

# 更 新 的 初始 值 ,默认 是 0. 0125 

# 步 长 的 上 界 ,默认 是 50 

# 训 练 方法 ,默认 是 "iRprop +" 

# 步 长 的 下 界 ,默认 是 0. 000001 

# 人 允许 一 个 通过 set seed 设置 的 种 子 

# 在 每 个 阶段 之 前 是 否 对 训练 数据 进行 清洗 


#runif B 














# 训 





失 威 少 j 












































函数 的 最 小 参数 
扫 norm 函数 的 sd 参数 
# 用 于 验证 的 输入 数据 集 
# 用 于 验证 的 目标 数据 ,取决 于 xValid 是 数据 和 
# 数 据 


#runif 


















































lel 





INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
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> data( iris) 
> model <— darch( Species ~. ,iris, darch. errorFunction = 


"crossEntropyError" ) 








运行 结果 显示 如 下 : 

[2017-01-02 09:15:32] Epoch: 96 of 100 

[2017-01-02 09:15:32] Classification error on Train set: 3.33% (5/150) 

[2017-01-02 09:15:33] Train set Cross Entropy error: 0.182 

[2017-01-02 09:15:33] Finished epoch 96 of 100 after 0.0891 secs (1683 patterns,sec) 
[2017-01-02 09:15:33] Epoch: 97 of 100 

[2017-01-02 09:15:33] Classification error on Train set: 5.33% (8/150) 

[2017-01-02 09:15:33] Train set Cross Entropy error: 0,211 

[2017-01-02 09:15:33] Finished epoch 97 of 100 after 0.0669 secs (2242 patterns,/sec) 
[2017-01-02 09:15:33] Epoch: 98 of 100 

[2017-01-02 09:15:33] Classification error on Train set: 8% (12/150) 

[2017-01-02 09:15:33] Train set Cross Entropy error: 0.322 

[2017-01-02 09:15:33] Finished epoch 98 of 100 after 0.0739 secs (2030 patterns,sec) 
[2017-01-02 09:15:33] Epoch: 99 of 100 

[2017-01-02 09:15:33] Classification error on Train set: 5.33% (8/150) 

[2017-01-02 09:15:33] Train set Cross Entropy error: 0.191 

[2017-01-02 09:15:33] Finished epoch 99 of 100 after 0.0825 secs (1818 patterns,/sec) 
[2017-01-02 09:15:33] Epoch: 100 of 100 

[2017-01-02 09:15:33] Classification error on Train set: 18% (27/150) 

[2017-01-02 09:15:33] Train set Cross Entropy error: 0.574 

[2017-01-02 09:15:33] Finished epoch 100 of 100 after 0.0819 secs (1877 patterns/ sec) 
[2017-01-02 09:15:33] Classification error on Train set (best model): 1.33% {2/150) 
[2017-01-02 09:15:33] Train set (best model) Cross Entropy error: 0.170 

[2017-01-02 09:15:33] Best model was found after epoch 86 

[2017-01-02 09:15:33] Fine-tuning finished after 7.704 secs 

2 Rdbn 包 


11.2.1 Rdbn 原理 


Rdbn 实现 R 环境 的 RBM 和 DBN 的 训练 和 学 习 。 但 目前 还 不 能 在 CRAN 上 使 用 


Rdbn， 只 能 在 github 上 参考 。 


Rdbn 主要 功能 如 下 : 

1) 根据 对 比 散 度 (Contrastive Divergence) 预 训 练 DBN。 
2) 根据 反 向 传播 算法 微调 分 类 任务 网 络 。 

3) 高 级 特征 训练 方法 ,例如 动量 加 速 学 习 和 12 正则 化 。 
4) 基于 UNIX 系统 pthreads 线程 实现 并 行 处 理 。 





11.2.2 Rdbn 安装 


在 UNIX 操作 系统 下 ， 可 以 简单 输入 命令 
R CMD installRdbn/ 
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Windows 环境 的 Rdbn 安装 见 例 8.1。 


11.2.3 Rdbn 应 用 


【 例 11.2】 基于 Vehicle 数据 集训 练 分 类 器 。 
(1) 加 载 依赖 的 包 
> require( mlbench) 


> data( Vehicle) 


> require( Rdbn) 


(2) 最 优 神 经 网 络 协 方差 变换 


wae 


>x<-t( Vehiclel ,ec(1:18) ]) 
>y<— Vehiclel ,19 
>for(iin c(1:(NCOL( Vehicle) -1)))!| 
x[i,] <— (Vehicle[ ,i|] ~ min( Vehicle| ,i] ))/(max( Vehicle[ ,i]) ~ min( Vehicle[ ,i|])) 
| 


(3) 数据 准备 


set. seed( 34) # 参 数 不 同 结果 不 同 
trainIndx <— sample(c(1:NCOL(x)),NCOL(x) *0.8 ,replace = FALSE) 





testIndx <—c(1:NCOL(x))[! (c(l1:NCOL(x))%in% trainIndx) | 
(4) 建 模 


>db <- dbn(x=xl ,trainIndx|， 
y=yLtrainIndx ] ， 
layer_sizes = c(18 ,100 ,150 ) ， 
batch_size = 10 ， 
Imomentum_decay =0. 9 ， 
learning_rate =0. 1 ， 
weight_cost = le -4， 


n_threads =8) 
在 训练 网 络 时 ， 重 要 的 是 每 个 mini - batch 样本 集 要 包含 用 于 分 类 正 例 和 反例 ， 
因为 Rdbn 不 能 改变 样本 的 顺序 。 


如 果 每 个 mini - batch 训练 样本 包含 了 所 有 类 别 的 样本 ， 就 可 以 更 换 Rdbn 的 输 
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和 顺序。 下 面 脚本 使 用 的 函数 shuffle 返回 的 样本 不 排序 ， 可 以 推广 到 多 类 情况 。 
shuffle 函数 把 样本 后 面 的 50% 放 到 前 面 。 





> shuffle <— function( n_elements) | 

indx <—c(1:n_elements) 

shuf <-c(which(indx % % 2 ==1) ,which(indx % % 2==0)) 
return( order( shuf) ) 


| 
(5) 模型 部 署 


pred_dbn <— dbn. predict( db ,data =x|[ ,testIndx | ,n_threads = 8) 
print( paste( "% correct( dbn ) :" ,sum( pred_dbn == as. character( y|[ testIndx | ) ) 


/NROW (yl| testIndx | ) ) ) 
另外 ， 网 络 训练 策略 可 以 独立 地 应 用 ， 这 提供 了 额外 的 控制 训练 参数 ， 可 以 使 
模型 有 更 好 的 性 能 。 


> db <— dbn( layer_sizes = c( 18,100,150), 
batch_size = 10,， 
cd_n=1, 
momentum_decay = 0. 9,， 
learning_rate =0. 1 ， 
weight_cost = le -4) 


db <— dbn. pretrain( db ,data = x| ,trainIndx | ,n_epocs =50,n_threads =8) 








微调 使 用 带 学 习 参 数 的 反 向 传播 算法 。 


db_refine <— dbn. refine( db, 
data =x[ ,trainIndx | ， 
labels = y[ trainIndx | ， 
n_epocs =100， 
rate_mult = 10,， 
n_threads =8) 
pred_dbn <— dbn. predict( db_refine ,data = xl ,testIndx | ,n_threads = 8) 
print( paste( "% correct( dbn) :" ,sum( pred_dbn == as. character( y[ testIndx | ) ) 


/NROW(yl| testIndx | ) ) ) 


文件 夹 “Rdbn/test_functions” 还 有 一 个 相关 的 例子 。 
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11.3 H20 包 


11.3.1 H20O 原理 





H20 遵循 多 层 前 馈 神 经 网 络 模 型 来 进行 预测 性 建 模 。 本 节 详 细 地 描述 H20 的 深 
度 学 习 特征 、 参 数 配 置 ， 以 及 计算 机 实现 。 

(1) 特征 概要 

H20 的 深度 学 习 功 能 包括 : 

1) 用 于 回归 与 分 类 任务 的 纯 监 督 训练 协议 。 

2) 快速 以 及 高 效 利 用 存储 的 JAVA 实现 ， 这 种 实现 基于 柱状 压缩 以 及 精细 地 图 / 
微量 递减 。 

3) 在 单 结 点 或 者 一 艇 多重 结 点 上 进行 多 线程 的 分 布 式 并 行 计算 。 

4) 全 自动 的 单 神经 元 自 适应 学 习 速 率 ， 以 求 快速 收敛 。 

5) 可 选 的 学 习 速 率 规格 、 退 火 以 及 动量 选项 。 

6) 正则 化 选项 包括 Ll1、L2、dropout，Hogwild 以 及 平均 化 模型 ， 这 些 选项 用 来 
防止 过 拟 合 。 

(2) 训练 

1) 初始 化 。 多 种 深度 学 习 架 构 结 合 了 非 监督 预 训练 与 监督 训练 ， 但 是 H20 使 
用 单纯 的 监督 训练 协议 。 默 认 初 始 化 方案 是 清一色 的 目 适 应 选项 ， 这 些 选项 是 基于 
网 络 规模 进行 了 优化 的 。 另 一 方面 ， 可 以 选择 服从 均匀 分 布 或 者 正 态 分 布 的 随机 初 
始 化 ， 对 此 ， 要 说 明 换算 因数 。 

2) 激活 函数 与 损失 函数 。 可 选 的 激活 函数 总 结 于 表 11. 1。 表 中 ，%; 与 ww 分别 代 











表 神经 元 的 输入 值 和 权重 值 ; a= > wx + 6 。 


表 11.1 激活 函数 






































激活 函数 公 式 i 

双 遇 正切 Ya) KH) ef 21,1] 
名 二 6 

矫 E 线 性 fla) =max(0,a) fl(:)eR, 

极 大 输出 玫 :) =max(wix;+5), 如果 太 :) 三 1, 则 修正 f(:)=1 f(:)e[-%,l] 
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可 选 的 损失 函数 列 于 表 11. 2。 
表 11.2 损失 函数 
































损失 函数 公 式 型 应 用 
均 方差 WB|D)= 序 上 ? -o2 有 回归 
交叉 彤 LW,B|) = >mo2) 0 rln(1 -0 ) (0 -7) 分 类 

y=0 . | E 








3) 精 调 。 使 损失 函数 值 最 小 化 的 过 程 类 似 于 随机 梯度 下 降 (Stochastic Gradient 
Descent，SGD)。 微 调 过 程 如 下 : 
初始 化 : WW，B。 
迭代 : 
获取 第 i 个 训练 样本 ; 
修改 wj 和 bi 


aL(W,B |)) 
jk Ok OW 

aL(W,B |)) 

b=bx -oa 二 
IE 


直到 满足 收敛 条 件 。 
其 中 ，a 表示 学 习 速 率 ， 它 控制 着 梯度 下 降 中 的 步 长 。 
4) 训练 算法 。 在 H20 中 使 用 SGD 进行 分 布 式 多 线程 训练 ， 以 下 是 一 个 算法 
概要 : 
步骤 1. 初始 化 全 局 模型 参数 W、B。 
步骤 2. 跨 结 点 分 布 训 练 数据 7 ( 结 点 可 以 不 交 ， 也 可 以 重复 )。 
步骤 3. 迭代 。 
对 训练 子 集 7, 上 的 nn 个 节点 进行 并 行 计算 . 
1) 获取 全 局 参数 下 ,、B, 的 副本 。 
2) 选择 子 集 了 ,CT7,。 
3) 通过 核 n, 把 7 划分 为 7 。 
4) 对 节点 nn 的 核 n.， 并 行 计算 : 
4.1) 获取 第 i 个 训练 样本 ,ie7,,.。 
4.2) 修改 所 有 权重 wx e w, ， 偏 移 量 b, ee B,。 
x LW,B |)) 


0 Wi 











Wi = Wi 
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oe 


天 


bj 二 六 一 


W = AvgW, 
B = AvgB， 

直到 满足 收敛 条 件 。 

步骤 4. 根据 验证 集 分 数 优 化 模型 。 

5) 指定 每 步 迭 代 的 样本 数 。H20 深度 学 习 是 可 扩展 的 并 且 能 够 利用 一 大 簇 计 算 
结 点 。 一 共有 三 种 运行 模式 。 默 认 行 为 是 ， 让 每 个 结 点 在 整个 数据 集 上 训练 ， 但 是 
自动 为 每 步 迭 代 分 配 训练 数据 。 

(3) 正则 化 

H20 的 深度 学 习 框 架 支 持 正 则 化 技巧 来 防止 过 拟 合 。L1 与 12 正则 化 方法 都 修 
改 了 损失 函数 为 

L'(W,B|j) =L(W,B |)) +AR(W,B|)) +AR,(W,B |)) 

还 有 一 种 正则 化 方法 称 为 dropout。 

(4) 优化 

H20 在 优化 阶段 ， 有 手动 模式 与 自动 模式 。 手 动 模式 特性 包括 动量 训练 和 学 习 
速率 退火 ， 而 自动 模式 自 适应 调整 学 习 速 率 。 

动量 训练 : 动量 训练 修改 了 反 向 传播 ， 它 允许 前 步 述 代 影 响 目前 的 更 新 。 专 门 
定义 一 个 向 量 下 来 对 更 新 进行 修改 如 下 : 


Vi+l 二 Hi -QVL(0,) 











0 =0, +v,,1 
其 中 ,9 代表 W、B 参数 ; 人 代表 动量 系数 ; a 代表 学 习 速 率 。 

(5) 数据 下 载 

当 用 R 下 载 在 使 用 H20 时 需要 的 数据 ， 这 和 通常 的 方法 稍 有 些 不 同 ， 即 必须 将 
数据 集 转化 为 H20ParsedData 对 象 。 例 如 ， 在 Http://bit. ly/1yywZzi. 下 载 天 气 数据 ， 


首先 下 载 数据 到 R 调试 环境 的 当前 工作 目录 ， 接 着 运行 如 下 命令 : 


weather. hex = h20. uploadFile( h20_server. path = " weather. csv" , header = true. 


sep ="." ,key = "weather. hex" ) 


快速 概览 数据 ， 运 行 如 下 命令 : 
166 


summary( weather. hex ) 


11.3.2 H20O 应 用 


【 例 11.3】 基 于 H20 的 手写 数字 识别 。 
(1) 加 载 H20 包 


> install. packages("h2o" ,repos = (c( "http://s3. amazonaws. com/h2o — release/ 


h2o/rel -kahan/5/R" ,getOption( "repos" ) ) ) ) 
> library( h20) 


载 人 需要 的 R: rjson、statmod 和 tools。 
(2) 启动 H20 
启动 H20 获取 连接 对 象 localH20 : 





> localH20 = h20. init(ip = "localhost" ,port =54321 , startH20 = TRUE, 
Xmxx 上 lg ) 


为 了 停止 H20 ， 需 执行 : 
<h2o. shutdown( localH20) 


H20 启动 后 ， 就 可 以 使 用 http://localhost:54321。 
(3) 数据 准备 
下 载 训练 集 :http ://www. pjreddie. com/ media/files/mnist_train. csv; 








下 载 测 试 集 :http://www. pjreddie. com/ media/files/mnist_test. csv。 


> res <— data. frame( Training = NA ,Test = NA, Duration = NA) 

# 加 载 数据 到 H20 

> train_h20 <— h2o. importFile( localH20O ,path = " C:/Users/jerry/ Downloads/ 
mnist_train. csv" ) 

> test_h20 <— hb2o. importFile( localH20O ,path = " C:/Users/jerry/ Downloads/ 
mnist_test. csv" ) 

>y_train <— as. factor( as. matrix(train_h20[ ,1 ] )) 


>y_test <— as. factor( as. matrix(test_h2ol ,1 | )) 


(4) 建 模 
训练 模型 要 很 长 一 段 时 间 ， 最 后 一 行 有 相应 的 进度 条 可 查看 。 
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> model <— h2o. deeplearning( x =2:785, # 输 入 变量 个 数 
y=1, # 响 应 变量 个 数 
data = train_h20, 
activation = " Tanh" ， 
balance_classes = TRUE, 
hidden = e(100,100 ,100) ，##3 层 隐 藏 层 
epochs = 100) 

















输出 模型 结果 : 
< model 


IP Address :localhost 

Port:54321 

Parsed Data Key:mnist_train. hex 

Deep Learning Model Key: DeepLearning 9c7831{93efb58b38c3fa08cb1l7d4e4e 
Training classification error:0 

Training mean square error:1nf 

Validation classification error:0 

Validation square error: Inf 

Confusion matrix: 


Reported onmnist_train. hex 


Predicted 
Actual 0 1 2 3 4 5 6 7 8 9 Error 
0 5923 0 0 0 0 0 0 0 0 0 0 
1 0 6742 0 0 0 0 0 0 0 0 0 
2 0 0 ©5958 0 0 0 0 0 0 0 0 
3 0 0 0 6131 0 0 0 0 0 0 0 
4 0 0 0 0 5842 0 0 0 0 0 0 
3 0 0 0 0 0 5421 0 0 0 0 0 
6 0 0 0 0 0 0 ©5918 0 0 0 0 
7 0 0 0 0 0 0 0 6265 0 0 0 
8 0 0 0 0 0 0 0 0 5851 0 0 
9 0 0 0 0 0 0 0 0 0 ©5949 0 
tals 5923 6742 5958 6131 5842 5421 5918 6265 5851 5949 0 
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(5) 模型 评估 


> yhat_train <— h20. predict( model ,train_h20) $ predict 
> yhat_train <— as. factor( as. matrix( yhat_train ) ) 
> yhat_test <— h20. predict( model , test_h20) $ predict 


> yhat_test <— as. factor( as. matrix( yhat_test ) ) 


查看 前 100 条 预测 与 实际 的 数据 相 比 较 





<y_test[ 1:100] 


[1]721041495906901597349665407401313472712117423 
S512446355604195789374 
[67]6430702917329776278473613693141769 

Levels:0 123456789 


> yhat_test[ 1 :100] 


[1]721041894906901597349665407401313472712117423 
S512446355604195789374 
[67]6430702917329776278473613693141769 

Levels:0 123456789 


查看 并 保存 结果 : 




















> library(caret ) 
>res[1,1] <-round(h2o. confusionMatrix( yhat_train,y_train) $ overallL 1 ] ,4) 
>res[1,2] <—round(h2o. confusionMatrix( yhat_test,y_test) $ overalll 1 | ,4) 


> print( res) 


11.4 deepnet 包 


R 的 伟大 之 处 在 于 ， 它 有 多 个 估算 神经 网 络 模型 的 包 。 建 议 读者 使 用 多 种 多 样 
的 包 和 学 习 算 法 来 构建 模型 。 

deepnet 包 实 现 了 一 些 DNN 结构 和 神经 网 络 相 关 算 法 ,包括 BP、RBM 训练 、 
DBN、AE、CNN 和 RNN 算法 等 。 


【 例 11.4】 使 用 deepnet 包 建 立 一 个 传统 的 反 向 传播 DNN。 
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(1) 加 载 所 需 的 包 
> library( deepnet ) 
(2) 设置 变量 
使 用 set. seed 方法 保证 程序 的 可 重复 性 ， 并 将 属 | 
应 变量 存储 在 R 对 象 Y 中 。 








度 








变量 存储 在 R 对 象 X 中 ， 响 





> set. seed(2016) 
>X=datal train,l:9] 
>Y=datal train ,10 | 


(3) 建立 DNN 


>fitB<-nn. train(x=X,y=Y, 
initW = NULL, 
initB = NULL, 
hidden = c(10,12,20), 
learningrate = 0. 58, 
momentum = 0. 74 ， 
learningrate_scale = 1] ， 
activationfun = " sigm" ， # 激 活 函 数 
output = " linear" ， # 输 出 神经 元 使 用 线性 激活 函数 


numepochs = 970,， 





batchsize =60 ， 
hidden_dropout =0， 


visible_dropout =0) 


这 些 语 句 与 以 前 看 到 的 非常 相似 ， 然 而 ,仍旧 要 逐 行 地 看 一 下 。 神 经 网 络 存储 
在 R 对象 fitB 中 。 注 意 ， 这 里 使 用 语句 x =X,，y = 立 传递 属性 变量 和 响应 变量 。 
deepnet 包 人 允许 指定 神经 元 权重 (initW) 和 偏差 (initB) 的 起 始 值 ; 将 这 两 个 值 都 
设置 为 NULL， 以 便 算法 随机 选择 它们 的 值 。 此 处 的 DNN 有 三 个 隐藏 层 ， 在 第 一 、 
第 二 和 第 三 隐藏 层 中 分 别 具 有 10、12 和 20 个 神经 元 

若 要 使 用 反 向 传播 算法 ， 必 须 指定 学 习 率 和 动量 。 学 习 率 控制 神经 网 络 收敛 的 
速度 。 简 而 言 之 ,动量 在 梯度 下 降 更 新 中 增加 了 上 一 梯度 的 加 权 平 均 。 它 倾向 于 抑 
制 噪声 ， 特 别 是 在 误差 函数 的 高 曲率 区 域 中 。 因 此 ， 动 量 可 以 帮助 网 络 避 人 免 陷 入 局 
部 最 小 值 。 这 三 个 参数 一 般 通 过 反复 试验 来 设置 ， 学 习 率 、 动 量 和 学 习 率 标 度 分 别 
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选择 0.58、0.74 和 1。 

接 下 来 的 两 行 指定 了 隐藏 神经 元 和 输出 神经 元 的 激活 函数 。 对 于 隐藏 神经 元 使 
用 逻辑 函数 sigm; 其 他 选项 则 包括 linear 或 tanh。 对 于 输出 神经 元 使 用 线性 激活 画 
数 ， 其 他 选项 则 包括 sigm 和 softmax。 该 模型 迭代 超过 970 次 ， 每 次 块 的 大 小 为 60。 
在 输入 层 或 隐藏 层 没有 Dropout 神经 元 。 

(4) 模型 部 署 





> Xtest <— datal -train,1:9] 


> predB <— nn. predict(fitB,Xtest) 
性 能 指标 计算 如 下 : 
<round(cor(predB ,datal -train,10])2 ,6) 


[ ,1 
[1 , ]0. 930665 


> mse( data[ -train,10] , predB) 


[ 1]0. 08525447959 
> Imse( data[ -train,10] ,predB) 


[110.2919836975 


总 的 来 说 ， 使 用 deepnet 包 构 建 模型 的 过 程 与 使 用 神经 网 络 包 的 过 程 非常 相似 。 
这 是 使 用 R 的 最 大 的 优点 ， 包 通常 以 类 似 的 方式 工作 ( 当然 要 指定 的 参数 可 能 有 所 
不 同 ) 。 这 种 灵活 性 可 以 使 我 们 能 够 使 用 各 种 不 同 的 学 习 算 法 和 调整 参数 来 快速 构建 
类 似 的 DNN 模型 。 

DNN 常常 具有 相同 的 拓扑 ， 但 是 不 同 的 学 习 算 法 或 调整 参数 将 在 相同 的 底层 数 
据 上 以 不 同 的 方式 执行 。 还 有 重要 一 点 不 能 忘记 ， 选 择 最 佳 DNN 模型 的 过 程 需要 选 
择 拓扑 、 神 经 元 、 层 数 、 学 习 算 法 和 调整 参数 ， 这 使 得 模型 的 组 合 相 当 复 杂 。 尽 管 
如 此 ， 已 经 看 到 ， 强 大 的 DNN 模型 可 以 在 R 中 被 快速 构建 、 训 练 和 测试 。 这 能 够 使 
得 它 在 图 像 、 声 音 和 信和 号 处 理 等 传统 领域 之 外 的 各 学 科 的 使 用 异常 繁荣 。 




















11.5 mbench 包 


目前 为 止 ， 绝 大 多 数 已 发 布 的 DNN 的 应 用 都 涉及 数据 分 类 问题 。 这 些 应 用 绝 大 
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多 数 涉 及 图 像 和 信号 处 理 。 本 节 讨 论 DNN 模型 在 健康 相关 的 领域 上 的 应 用 。 通 过 这 
个 案例 研究 ， 可 以 放 开 思 路 ， 结 合 相 关 专 业 知识 ， 将 这 个 应 用 转化 到 科研 领域 中 。 

【 例 11.S】 使 用 mbench 包 中 的 PimaIndiansDiabetes2 数据 构建 DNN 模型 。 

(1) 数据 集 

数据 集 与 糖尿 病 、 消 化 和 肾脏 疾病 研究 有 关 ， 它 包含 768 个 观测 值 ， 每 个 观察 
值 有 9 个 变量 ， 这 些 变 量 来 源 于 21 岁 以 上 的 印度 传统 Pima 女性 。 表 11. 3 是 对 数据 
集 变 量 的 描述 。 








< data(" PimalndiansDiabetes2" ,package =" mlbench" ) “# 数 据 加 载 












































> ncol(PimaIndiansDiabetes2 ) # 列 数 
[1]9 
> nrow(PimaIndiansDiabetes2 ) # 行 数 
[11768 
表 11.3 PimaIndiansDiabetes2 数据 框 
变 量 名 播 ” 述 
pregnant 怀孕 次 数 
glucose 血浆 葡萄 糖 浓度 
pressure 舒张 血压 (mmHg) 
triceps 肽 三 头 肌 皮肤 裙 皱 厚度 (mm) 
insulin 2 小 时 内 血清 含 胰岛 素数 (MU/m!l) 
mass 身体 质量 指数 
pedigree 糖尿 病 血 流 函 数 
age 年 龄 
diabetes 对 糖尿 病 的 测试 (分 类 变量 ， 阴 性 /阳性 ) 











diabetes 为 响应 变量 。 注 意 到 ， 奈 力 、 肪 三 尖 肌 、 胰 岛 素 和 质量 包含 NA， 这 些 
是 缺失 值 。 收 集 数 据 时 可 能 面临 着 丢失 数据 的 问题 ,如 人 们 不 愿 或 忘记 回答 问题 ， 
因此 ， 数 据 常 常 丢失 或 者 无 法 被 正确 记录 。 这 里 数据 似乎 缺失 很 多 ， 最 好 检查 一 下 
实际 缺失 的 数据 。 








< apply( PimalndiansDiabetes2 ,2 ,function( x)sum(is. na(x) ) ) 


pregnant glucose pressure triceps insulin mass pedigree age diabetes 


0 3 35 227 374 11 0 0 0 





数据 存在 大 量 缺 失 值 ， 特 别 是 胰岛 素 和 三 头 肌 的 属性 。 应 该 如 何 处 理 这 个 问题 ? 
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最 常用 的 也 





月 贞 江 


十 取 谷 











易 的 方法 是 仅 使 用 那些 有 完整 个 人 信息 的 数据 。 用 一 个 合理 的 值 
估算 缺失 的 观测 值 也 是 一 个 替代 方法 。 例 如 ， 可 以 用 
杂 的 方法 是 使 用 分 布 模型 〈 例 如 最 大 似 然 和 多 局 








属性 均值 或 中 数 替 换 NA。 更 复 
EE 插 补 ) 。 


由 于 胰岛 素 和 肪 三 头 肌 缺 失 太 多 ， 从 样本 中 删除 这 两 个 
法 删除 剩 下 的 缺失 值 。 被 删除 的 数据 存储 在 temp 中 。 





属性 ， 并 使 用 na. omit 方 
<temp <— (PimaIndiansDiabetes2 ) 
<temp $ insulin <-NULL 
<temp $ triceps <-NULL 


<temp <— na. omit( temp) 





要 做 出 有 意义 的 分 析 ， 必 须 拥 有 足够 的 观测 值 。 因 此 ， 考 查 一 下 数据 . 
> mrow( temp) 
[1]724 
> ncol(temp) 
[1]7 


数据 包含 了 724 个 数据 ， 响 应 变 
意 ， 现在 矩阵 temp 中 只 包含 变 
y (作为 因子 ) 合并 到 temp 中 。 


三 
里 





三 
时 


E 属 











存储 在 R 对 象 y 中 ， 并 从 temp 中 删除 它 。 注 
性 。 使 用 缩放 的 方法 将 属性 数据 标准 化 ， 然后 将 
<y<-(temp $ diabetes) 
<temp $ diabetes <— NULL 


< temp <— scale( temp) 





< temp <— cbind(as. factor(y) ,temp) 





继续 检查 一 下 ， 以 确保 这 个 类 是 一 个 矩阵 类 型 ， 


<class( temp)[ 1]"matrix" 





也 可 以 使 用 summary， 查 看 数据 摘要 . 
> summary( temp) 


Vl 
Min. 


pregnant 
:1. 000000 Min. 


glucose 
:—1.1496428 Min. 
lst Qu. :1. 000000 1st Qu. : -0. 8522718 


pressure 
: —2.5327649 Min. :—3.90961708 
lst Qu. : —0.7197585 1st Qu.:—0.67856547 
Median :1. 000000 Median : -0. 2575298 Median: —0.1587835 Median: —0.03235514 
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Mean :1.343923 Mean : 0.0000000 Mean : 0.0000000 Mean : 0.00000000 
3rd Qu.:2. 000000 3rd Qu.: 0. 6345831 3rd Qu.: 0.6542239 3rd Qu.: 0.61385518 


Max. :2.000000 Max. : 3.9056640 Max. : 2.5078806 Max. : 4.00645938 
mass pedigree age 
Min. :—2.071018931 Min. :—1.1939431 Min. :—1.0497592 


lst Qu. : -0.721029128 1st Qu.:—0.6914078 1st Qu.:—0.7947740 
Median : -0. 009744179 Median: -0.2881760 Median: - 0. 3697989 
Mean : 0.000000000 Mean : 0.0000000 Mean : 0.0000000 
3rd Qu.: 0.599928635 3rd Qu.: 0.4596085 3rd Qu.: 0.6501416 
Max. : 5.027314546 Max. : 53.8335871 Max. : 4.0499431 


最 后 ， 选 择 训练 样本 (724 个 观测 值 中 的 600 个 ) 。 

















< set. seed(2016) 
<n=nrow(temp) 
<n_train <—600 

<n test<—n—n_ tran 


<train <— sample(1:n,n_ train,FALSE) 
(2) 使 用 RSNNS 包 建 立 DNN 


< library( RSNNS) 








为 让 问题 尽 可 能 简单 ， 将 响应 变量 赋值 给 Y， 属 性 变量 赋值 给 X。 


| 








< set. seed(2016) 
<X<-templ train,!l] :6] 


<Y<-templ train,7 | 





现在 的 问题 是 ， 如 何在 RSNNS 包 中 指定 分 类 DNN。 


>fitMLP <—- mlp(x =X,y=Y, 
size =c(12,8), 
maxit = 1000,， 
initFunc =" Randomize_Weights" ， 
initFuncParams =c( -0.3,0.3)， 
learnFunc = " Std_Backpropagation" ， 
learnFuncParams =c(0.2,0) ， 
updateFunc = "Topological_Order" ， 
updateFuncParams = c(0) ， 


hiddenActFunc ="Act_Logistic" ， 
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shufflePatterns = TRUE ， 
linOut = TRUE ) 





这 个 网 络 有 两 个 隐藏 层 ， 第 一 个 隐藏 层 包含 12 个 神经 元 ; 第 二 隐 含 层 包含 8 个 
神经 元 。 使 用 隐藏 层 中 的 逻辑 激活 函数 和 输出 层 神经 元 的 线性 激活 函数 来 随机 地 初 
始 化 权重 和 偏差 。 

注意 到 ， 对 于 这 个 数据 集 ，R 代码 执行 相对 较 快 。 

(3) 使 用 predict 函数 进行 预测 





> predMLP <— sign(predict(fitMLP,templ -train,1:6])) 


既然 有 了 分 类 数据 ， 就 应 该 查看 其 混 清 矩阵 。 





<table( predMLP ,sign(temp[ -train,7]) ,dnn =¢c(" Predicted" ," Observed" ) ) 


Observed 
Predicted -1 1 
-1 67 9 
1 -21 27 





注意 : 模型 不 能 完美 地 拟 合 数 据 。 混 淆 矩阵 中 的 对 角 线 元 素 表 示 分 类 错误 的 数 
据 数 量 。 将 错误 分 类 的 数据 计算 为 错误 率 通 常 是 有 帮助 的 。 做 法 如 下 : 











<error rate = (1 -sum(predMLP == sign( temp|[ -train,7]) )/124) 


< round ( error_rate ,3 ) 
[1]0.242 


分 类 DNN 具有 大 约 24% 的 总 体 错误 率 (或 大 约 76% 的 准确 率 ) 。 

要 强调 的 是 ,使 用 R 可 以 轻松 地 、 快 速 地 构建 分 类 DNN。 如 果 使 用 C ++ 和 C 
编写 代码 要 许多 行 ， 才 可 以 完成 现在 R 中 几 行 代码 就 可 以 实现 事情 。 如 果 读 者 对 数 
据 科 学 感 兴趣 ， 并 且 希 望 使 用 相关 学 科 的 工具 来 提取 有 意义 的 信息 ， 那 么 使 用 R 肯 
定 会 事半功倍 。 























11.6 AMORE 包 











nnet 包 提 供 了 最 常见 的 前 馈 反 向 传播 神经 网 络 算法 ，AMORE 包 则 更 进一步 提供 
了 更 为 丰富 的 控制 参数 ， 并 可 以 增加 多 个 隐藏 层 。 
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【 例 11.6】 使 用 AMORE 包 构 建 一 个 分 类 DNN。 
(1) 分 离 RSNNS 包 并 加 载 AMORE 


< detach( "package: RSNNS" ,unload = TRUE) 
< library( AMORE) 


(2) 建 模 


>net <— newff(n. neurons =c(6,12,8,1) ， 
learning. rate. global =0. 01 ， 
momentum. global =0. 5 ， 
error. criterium = " LMLS", 
Stao =NA， 
hidden. layer = "sigmoid" ， 
output layer = " purelin" ， 


method = " ADAPTgdwm" ) 


绝 大 部 分 包 的 用 法 都 类 似 于 之 前 看 到 的 。 但 需 注意 ，AMORE 包 需 要 指定 输入 和 
输出 结 点 的 数量 以 及 隐藏 结 点 。 这 里 使 用 语句 n. neurons =c(6,12,8,1) 来 实现 ， 第 
一 个 数字 反映 了 六 个 输入 属性 ， 第 二 个 和 第 三 个 值 表示 第 一 和 第 二 隐藏 层 中 神经 元 
的 数量 ， 并 且 在 这 种 情况 下 最 终 输 出 神经 元 的 数量 为 1。 

多 数 情况 下 ， 数 据 科 学 家 通过 最 小 化 训练 集 的 均 方 差 来 训练 DNN。 然 而 ， 当 出 
现 异 常 值 时 ， 训 练 得 到 的 模型 可 能 难以 捕获 生成 数据 的 机 制 。 为 此 ， 在 构建 DNN 模 
型 时 ， 硕 望 最 小 化 鲁 棒 的 误差 度量 。 建 议 使 用 平均 对 数 平方 误差 (LMLS) 。AMORE 
软件 包 中 的 其 他 和 鲁 棒 选择 包括 Tao error60 的 “TAO” 以 及 标准 均 方 误差 (LMS) ， 参 
数 方法 指定 使 用 的 学 习 方 法 ， 而 本 例 选择 使 用 自 适 应 动量 梯度 下 降 的 方法 一 一 ADA- 
PTgdwm, 

(3) 数据 集 

将 属性 变量 赋值 给 R 对 象 X， 将 响应 变量 赋值 给 R 对 象 Y。 






































<X<—templ| train, | 
<Y<-templ train,7] 
(4) 数据 拟 合 
。 训练 集 拟 合 
>fit <—train(net,P=X,T = Y,error. ="LMLS" ,report = TRUE, 


show. step = 100 ,n. shows =5) 
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RSNNS 包 建 立 的 分 类 DNN 有 较 低 的 误 分 类 率 ， 其 误 分 类 率 约 为 22% 。 这 里 的 关键 


模型 运行 时 ， 将 看 到 如 下 的 输出 : 


index . show :1 LMLS 0. 239138435481238 
index . show :2 LMLS 0. 236182280077741 
index . show :3 LMLS 0.230675203275236 
index . show :4 LMLS 0.222697557309232 





index . show :5 LMLS 0.214651839732672 


。 测试 集 拟 合 
一 旦 模型 开始 收敛 ， 立 即使 用 sim 算法 基于 测试 样本 拟 合 模型 。 


<pred <—sign(sim(fit $ net,temp[ -train, ])) 


< table( pred,sign(temp[ -train,7]) ,dnn =¢c("Predicted" ," Observed" ) ) 


Observed 

Prdeicted -1 1 
-1 71 10 
1 17 26 


(5) 模型 部 署 
通过 误差 率 评 佑 模型 





<error rate =(1 -sum(pred == sign(temp|[ -train,7]))Z124) 


< round ( error_rate ,3 ) 
[1]0.218 


总 体 上 ， 具 有 动量 学 习 的 自 适应 梯度 下 降 结 合 鲁 棒 误 差 的 方法 ， 相 对 于 使 用 











是 ， 当 建立 DNN 模型 时 ， 要 使 用 不 同 的 包 、 不 同 的 学 习 算 法 、 不 同 的 网 络 架构 等 。 
换言之 ， 构 建 卓越 的 DNN 就 是 通过 实验 。 














11.7 学 习 指 南 


本 章 介 绍 了 用 于 深度 学 习 的 其 他 6 个 R 包 。 实际 应 用 要 根据 目标 、 数 据 来 选择 


mh 





相应 的 R 包 。 
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附 有 好 


附录 A 深度 学 习 发 展 史 





深度 学 习 起 点 是 神经 认 知 机 模型 ， 此 时 已 经 出 现 了 卷 积 结构 ， 经 典 的 LeNet 诞 
生 于 1998 年 。 然 而 之 后 卷 积 神经 网 络 (CNN) 的 锋芒 开始 被 支持 向 量 机 (SVM) 等 
手工 设计 的 特征 盖 过 。 随 着 ReLU 和 Dropout 的 提出 ， 以 及 GPU 和 大 数据 带 来 的 历史 
机 遇 ，CNN 在 2012 年 迎 来 了 历史 突破 一 一 AlexNet ( 见 图 A.1)。 


MSRANet 
Inception V3 
Inception V4 
Faster R-CNN 

FCN CNN+RNN/LST™M 


图 A.1 神经 网 络 演化 过 程 














网 络 加 深 


二 者 结合 ， 
网 络 加 深 上 + 收敛 加 速 













ResNet 












A.1 LeNet 
LeNet5 是 最 早 的 卷 积 神经 网 络 之 一 ， 并 且 推 动 了 深度 学 习 领 域 的 发 展 。 自 从 























1998 年 开始 ， 在 许多 次 成 功 的 迭代 后 ， 这 项 由 Yann LeCun 完成 的 开拓 性 成 果 被 命名 
为 LeNet5 ， 其 架构 见 图 A. 2， 麻 洽 虽 小 ,但 五 脏 俱 全 ， 卷 积 层 、pooling 层 、 全 连接 
层 ， 这 些 都 是 现代 CNN 网 络 的 基本 组 件 ( 见 第 3 章 ) 。 

输入 尺寸 : 32 x32 ; 

卷 积 层 : 3 个 ; 








178 








C3: 特征 映射 层 16@10X10 
C1: 特征 映射 层 特征 映射 f 映 射 16@5 X5 


S@28 X28 
S2: 映射 FF : 层 F6: 层 输出 
0 





输入 层 
32X31 















如 





下 采样 卷 积 


A.2 LeNets 架构 


下 采样 层 : 2 个 ; 

全 连接 层 : 1 个 ; 

输出 层 : 10 个 数字 (0 ~9) 的 概率 。 

可 以 说 LeNet 是 CNN 的 开端 ， 所 以 这 里 简单 介绍 LeNet 各 个 组 件 的 用 途 与 意义 。 

(1) Input(32 * 32) 

输入 图 像 大 小 为 32 x 32。 这 要 比 mnist 数据 库 中 最 大 的 字母 (28 x28) 还 大 。 
这 样 做 的 目的 是 希望 潜在 的 明显 特征 ， 如 笔画 断 续 、 角 点 能 够 出 现在 最 高 层 特征 监 
测 子 感知 的 中 心 。 

(2) C1,C3,C5( 卷 积 层 ) 

卷 积 核 在 二 维 平 面 上 平移 ， 并 且 卷 积 核 的 每 个 元 素 与 被 卷 积 图 像 对 应 位 置 相 乘 ， 
再 求 和 。 通 过 卷 积 核 的 不 断 移动 ， 就 有 了 一 个 新 的 图 像 ， 这 个 图 像 完 全 由 卷 积 核 在 
各 个 位 置 时 的 乘积 求 和 的 结果 组 成 。 

二 维 卷 积 在 图 像 中 的 效果 就 是 : 对 图 像 的 每 个 像素 的 邻 域 ( 邻 域 大 小 就 是 核 的 
大 小 ) 加 权 求 和 得 到 该 像素 点 的 输出 值 。 具 体 做 法 见 图 3.2。 

卷 积 运算 一 个 重要 的 特点 就 是 : 通过 卷 积 运算 可 以 使 原 信 号 特征 增强 ， 并 且 降 
低 噪 声 。 

不 同 的 卷 积 核能 够 提取 到 图 像 中 的 不 同 特征 ， 下 面 是 不 同 卷 积 核 得 到 的 不 同 的 
卷 积 特 征 图 ( 见 图 A. 3、A.4)。 

以 C1 层 进行 说 明 : C1 层 是 一 个 卷 积 层 ， 有 6 个 卷 积 核 (提取 6 种 局 部 特征 ) ， 
核 大 小 为 5x5， 能 够 输出 6 个 特征 图 (Feature Map) ， 大 小 为 28 x28。C1 有 156 个 
可 训练 参数 (每 个 滤波 器 5 x5 =25 个 unit 参数 和 1 个 bias 参数 ， 一 共 6 个 滤波 器 ， 
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共 (5 x5 +1) x6 =156 个 参数 ) ， 共 156 x (28 x28) =122 304 个 连接 。 
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图 A.4 ” 卷 积 特征 攻 
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MD 








(3) S2 ,S4(pooling 层 ) 
S2 、S4 是 下 采样 层 ， 是 为 了 降低 网 络 训练 参数 及 模型 的 过 拟 合 程度 。 池 化 /采样 
的 方式 通常 有 以 下 两 种 : 
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1) Max - Pooling: 选择 Pooling 窗口 中 的 最 大 值 作为 采样 值 。 

2) Mean - Pooling: 将 Pooling 窗口 中 的 所 有 值 相 加 取 平 均 ， 以 平均 值 作为 采 
样 值 。 

S2 层 是 6 个 14 x14 的 特征 图 ， 图 中 的 每 一 个 单元 与 上 一 层 的 2 x2 领域 相连 接 ， 
所 以 ，S2 层 是 C1 层 的 1/4。 

(4) F6( 全 连接 层 ) 

F6 是 全 连接 层 ， 类 似 MLP 中 的 一 个 Layer， 共 有 84 个 神经 元 (为 什么 选 这 个 数 
字 ? 与 输出 层 有 关 ) ， 这 84 个 神经 元 与 C5 层 进行 全 连接 ， 所 以 需要 训练 的 参数 是 . 
(120 +1) x84 =10 164。 

如 同 经 典 神经 网 络 ，F6 层 计算 输入 向 量 和 权重 向 量 之 间 的 点 积 ， 再 加 上 一 个 偏 
置 。 然 后 将 其 传递 给 Sigmoid 函数 产生 单元 i 的 一 个 状态 。 

(5) Output( 输出 层 ) 

输出 层 由 欧 氏 径 向 基 函 数 (Euclidean Radial Basis Function) 单元 组 成 ， 每 类 一 
个 单元 ， 每 个 有 84 个 输入 。 

换 句 话说 ， 每 个 输出 RBF 单元 计算 输入 向 量 和 参数 向 量 之 间 的 欧 氏 距离 。 输 入 
离 参数 向 量 越 远 ，RBF 输出 的 值 越 大 。 用 概率 术语 来 说 ，RBF 输出 可 以 被 理解 为 F6 
层 配 置 空间 的 高 斯 分 布 的 负 log - likelihood。 给 定 一 个 输 式 ， 损 失 函 数 应 能 使 得 F6 的 
配置 与 RBF 参数 向 量 ( 即 模式 的 期 望 分 类 ) 足够 接近 。 图 A.5 显示 在 两 个 数据 上 的 
测试 结 
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A.5 测试 结果 
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LeNet5 的 架构 基于 这 样 的 观点 : (尤其 是 ) 图 像 的 特征 分 布 在 整 张 图 像 上 ， 以 
及 带 有 可 学 习 参 数 的 卷 积 是 一 种 用 少量 参数 在 多 个 位 置 上 提取 相似 特征 的 有 效 方式 。 
在 那 时 候 ， 没 有 GPU 帮助 训练 ， 甚 至 CPU 的 速度 也 很 慢 。 因 此 ， 能 够 保存 参数 以 
及 计算 过 程 是 一 个 关键 进展 。 这 和 将 每 个 像素 用 作 一 个 大 型 多 层 神 经 网 络 的 单独 
输入 相反 。LeNet5 阐述 了 那些 像素 不 应 该 被 使 用 在 第 一 层 ， 因 为 图 像 具 有 很 强 的 
空间 相关 性 ， 而 使 用 图 像 中 独立 的 像素 作为 不 同 的 输入 特征 则 利用 不 到 这 些 相 
关 性 。 

(6) LeNet5 特征 

1) 卷 积 神经 网 络 使 用 3 个 层 作 为 一 个 序列 : 卷 积 、 池 化 和 非 线 性 。 这 可 能 是 图 
像 深度 学 习 的 关键 特征 

2) 使 用 卷 积 提 取 空 间 特 征 。 

3) 使 用 映射 到 空间 均值 下 采样 (Subsample)。 

4) 双 曲 正切 (tanh) 或 S$ 型 (Sigmoid) 形式 的 非 线 性 。 

5) 多 层 神经 网 络 (MLP) 作为 最 后 的 分 类 器 。 

6) 层 与 层 之 间 的 稀 玻 连接 矩阵 以 避免 大 的 计算 成 本 。 

总 体 来 看 ，LeNet5 网 络 是 最 近 大 量 架 构 的 起 点 ， 并 且 也 给 这 个 领域 的 许多 应 用 
带 来 了 灵感 。 

1998 ~ 2010 年 神经 网 络 处 于 孵化 阶段 。 大 多 数 人 没有 意识 到 它们 不 断 增 长 的 力 
量 ， 与 此 同时 其 他 研究 者 则 进展 缓慢 。 由 于 手机 相机 以 及 便宜 的 数字 相机 的 出 现 ， 
来 越 多 的 数据 可 被 利用 。 并 且 计 算 能 力也 在 成 长 ，CPU 变 得 更 快 ，GPU 变 成 了 多 
种 用 途 的 计算 工具 。 这 些 趋势 使 得 神经 网 络 有 所 进展 ， 虽 然 速 度 很 慢 。 数 据 和 计算 
能 力 使 得 神经 网 络 能 完成 的 任务 越 来 越 有 趣 。 之 后 一 切 变 得 清晰 起 来 ……: 

A.2 Dan Ciresan Net 

2010 年 ，DanClaudiu Ciresan 和 Jurgen Schmidhuber 发 布 了 最 早 的 GPU 神经 网 络 
的 一 个 实现 。 这 个 实现 是 在 一 块 NVIDIA GTX 280 图 形 处 理 器 上 运行 9 层 的 神经 网 
络 ， 包 含 前 向 与 反 向 传播 。 

A.3 AlexNet 

2012 年 ，AlexKrizhevsky 发 表 了 Alexet (参见 : ImageNet Classification with Deep 
Convolutional Neural Networks) ， 它 是 LeNet 的 一 种 更 深 更 宽 的 版 本 ， 并 以 显著 优势 赢 
得 了 困难 的 ImageNet 竞赛 ， 其 架构 如 图 3. 6 所 示 。 

AlexNet 将 LeNet 的 思想 扩展 到 了 更 大 的 能 学 习 更 复杂 的 对 象 与 对 象 层 次 的 神经 
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网 络 上 。 

(1) AlexNet 特征 

1) 使 用 修正 的 线性 单元 (ReLU) 作为 非 线性 。 

2) 在 训练 的 时 候 使 用 Dropout 技术 有 选择 地 忽视 单个 神经 元 ， 以 避免 模型 过 
拟 合 。 

3) 覆盖 进行 最 大 池 化 ， 避 免 平 均 池 化 的 平均 化 效果 。 

4) 使 用 GPU NVIDIA GTX 580 减少 训练 时 间 。 

在 那 时 ，GPU 相 比 CPU 可 以 提供 更 多 数量 的 核 ， 训 练 效率 可 以 提升 10 倍 ， 这 
又 反 过 来 允许 使 用 更 大 的 数据 集 和 更 大 的 图 像 。 

AlexNet 可 以 说 是 具有 历史 意义 的 一 个 网 络 结构 ， 可 以 说 在 AlexNet 之 前 ， 深 度 
学 习 已 经 沉寂 了 很 入。 历史 的 转折 在 2012 年 到 来 ，AlexNet 在 当年 的 ImageNet 图 像 
分 类 竞赛 中 ，top -5 错误 率 比 上 一 年 的 冠军 下 降 了 10 个 百分点 ， 而 且 远 远 超过 当年 
的 第 二 名 。 

(2) AlexNet 原理 

1) 样本 倍增 。 

有 一 种 观点 认为 神经 网 络 是 靠 数据 喂 出 来 的 ， 若 增加 训练 数据 ， 则 能 够 提升 算 
法 的 准确 率 ， 因 为 这 样 可 以 避免 过 拟 合 ， 而 避免 了 过 拟 合 就 可 以 增 大 网 络 结构 。 当 
训练 数据 有 限 的 时 候 ， 可 以 通过 一 些 变换 来 从 已 有 的 训练 数据 集中 生成 一 些 新 的 数 
据 ， 进 而 扩大 训练 数据 的 规模 。 

其 中 ， 最 简单 、 通 用 的 图 像 数据 变形 的 方式 如 下 ( 见 图 A.6): 














随机 穿越 





一 避 


下 而 各 种 变换 随机 组 合 : 





一 修剪 
一 透镜 畸变 








图 A.6 AlexNet 应 用 结果 
Q@ 从 原始 图 像 (256，256) 中 ， 随 机 地 crop 出 一 些 图 像 (224，224) 。【 平 移 


变换 crop】 
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@) 水 平 翻转 图 像 。【 反射 变换 ，flip】 

@) 给 图 像 增 加 一 些 随 机 的 光照 。【 光照、 彩色 变换 ，color jittering】 

AlexNet 训练 的 时 候 ， 在 样本 倍增 上 处 理 得 很 好 : 

@ 随机 crop。 训 练 时 候 ， 对 于 256 x 256 的 图 片 进行 随机 crop 到 224 x224， 然 
后 允许 水 平 翻转 ， 那 么 相当 于 将 样本 倍增 到 (256 -224)? x2 =2048。 

@) 测试 的 时 候 ， 对 左上 、 右 上 、 左 下 、 右 下 、 中 间 做 了 5 次 crop ， 然 后 翻转 ， 共 
10 次 crop， 之 后 对 结果 求 平均 。 若 不 做 随机 Crop ， 则 大 网 络 基本 都 过 拟 合 ( Under 
Substantial Overfitting ) 。 

@) 对 RGB 空间 做 主 成 分 分 析 (PCA) ， 然 后 对 主 成 分 做 一 个 (0，0. 1) 的 高 斯 
扰动 。 结 果 使 错误 率 下 降 了 1% 。 

2) ReLU 激活 函数 。 

Sigmoid 是 常用 的 非 线性 的 激活 函数 ， 它 能 够 把 输入 的 连续 实 值 “压缩 ”到 0 ~1 
之 间 。 特 别 地 ， 如 果 是 非常 大 的 负数 ， 那 么 输出 就 是 0; 如 果 是 非常 大 的 正 数 ， 输 出 
就 是 1。 

但 是 Sigmoid 有 一 些 致命 的 缺点 : 

当 输入 非常 大 或 者 非常 小 的 时 候 ， 会 有 饱和 现象 ， 这 些 神经 元 的 梯度 是 接近 于 0 
的 。 如 果 初 始 值 很 大 ， 则 梯度 在 反 向 传播 的 时 候 因 为 需要 乘 上 一 个 Sigmoid 的 导数 ， 
所 以 会 使 得 梯度 越 来 越 小 ， 这 会 导致 网 络 变 得 很 难 学 习 。 

Sigmoid 的 输出 不 是 0 均值 ， 这 是 不 可 取 的 ， 因 为 这 会 导致 后 一 层 的 神经 元 将 得 
到 上 一 层 输出 的 非 0 均值 的 信号 作为 输入 。 

产生 的 一 个 结果 就 是 : 如 果 数 据 进 入 神经 元 的 时 候 是 正 的 ( 若 z>0,A=mwxz+b)， 
那么 mw 计算 出 的 梯度 也 会 始终 都 是 正 的 。 

当然 ， 如 果 按 Batch 去 训练 ， 那 么 这 个 Batch 可 能 得 到 不 同 的 信号 。 因 此 , 非 0 
均值 这 个 问题 虽然 会 产生 一 些 不 好 的 影响 ， 但 与 上 面 提 到 的 梯度 变 小 问题 相 比 要 好 
很 多 。 


ReLU 的 数学 表达 式 如 下 : 






























































f(x) =max(0,x) 
很 显然 ， 从 图 A. 7a 可 以 看 出 ， 输 入 信号 小 于 0 时 ,输出 都 是 0; 大 于 0 的 情况 
下 ， 输 出 等 于 输入 。 在 w 是 二 维 的 情况 下 ， 使 用 ReLU 之 后 的 效果 如 图 A.7 所 示 。 














Alex 用 ReLU 代 蔡 了 Sigmoid， 发 现 使 用 ReLU 得 到 的 SGD 的 收敛 速度 比 Sig- 
moid/tanh 快 很 多 。 
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图 A.7 ReLU 效果 


这 主要 是 因为 它 是 线性 的 ， 而 且 是 非 饱 和 的 (因为 ReLU 的 导数 始终 是 1) ， 相 
比 于 Sigmoid/tanh ，ReLU 只 需要 一 个 阐 值 就 可 以 得 到 激活 值 ， 而 不 用 去 算 一 大 堆 复 
杂 的 运算 。 

关于 激活 函数 更 多 内 容 ， 请 参考 相关 文献 。 

3 ) Dropout。 

结合 预先 训练 好 的 许多 不 同 模型 来 进行 预测 是 一 种 非常 成 功 的 减少 测试 误差 的 
方式 (Ensemble) 。 但 因为 每 个 模型 的 训练 都 需要 花 好 几 天 时 间 ， 因 此 这 种 做 法 对 于 
大 型 神经 网 络 来 说 太 过 昂贵 。 

然而 ，AlexNet 提出 了 一 个 非常 有 效 的 模型 组 合 版 本 ， 它 在 训练 中 只 需要 花费 两 
倍 于 单 模型 的 时 间 。 这 种 技术 叫 作 Dropout， 它 做 的 就 是 以 0. 5 的 概率 ， 将 每 个 隐 层 
神经 元 的 输出 设置 为 零 。 以 这 种 方式 “dropped out” 的 神经 元 既 不 参与 前 向 传播 ， 
也 不 参与 反 向 传播 。 

所 以 每 次 输入 一 个 样本 ， 就 相当 于 该 神经 网 络 尝 试 了 一 个 新 的 结构 ， 但 是 所 有 
这 些 结构 之 间 共 享 权 重 。 因 为 神经 元 不 能 依赖 于 其 他 特定 神经 元 而 存在 ， 所 以 这 种 
技术 降低 了 神经 元 复杂 的 互 适应 关系 。 

正 因 如 此 ， 网 络 需 要 被 迫 学 习 更 为 鲁 棒 的 特征 ， 这 些 特征 在 结合 其 他 神经 元 
的 一 些 不 同 随机 子 集 时 有 用 。 在 测试 时 ,将 所 有 神经 元 的 输出 都 仅仅 只 乘 以 0.5， 
对 于 获取 指数 级 Dropout 网 络 产生 的 预测 分 布 的 几何 平均 值 ， 这 是 一 个 合理 的 近似 
方法 。 

4) 多 GPU 训练 。 

单个 GTX 580 GPU 只 有 3 GB 内 存 ， 这 限制 了 可 以 在 其 上 训练 的 网 络 的 最 大 规 
模 。 因 此 一 般 将 网 络 分 布 在 两 个 GCPU 上 。 


目前 的 GPU 特别 适合 跨 GPU 并 行 化 ， 因 为 它们 能 够 直接 从 男 一 个 GPU 的 内 存 
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中 读 出 和 写 人 和 人， 不 需要 通过 主机 内 存 。 

目前 采用 的 并 行 方案 是 : 在 每 个 GPU 中 放置 一 半 核 (或 神经 元 )。 还 有 一 个 额 
外 的 技巧 ， GPU 间 的 通信 只 在 某 些 层 进行 。 

在 图 A.2 中 ,第 3 层 的 核 需要 从 第 2 层 中 所 有 核 映射 输入 。 然 而 ， 第 4 层 的 核 
只 需要 从 第 3 层 中 位 于 同一 GPU 的 那些 核 映射 输入 。 

5) 局 部 响应 归 一 化 (Local Responce Normalization，LRN ) 。 

一 句 话 概括 : 本 质 上 ， 这 个 层 也 是 为 了 防止 激活 函数 的 饱和 的 。 基 本 原理 是 通 
过 正则 化 让 激活 函数 的 输入 靠近 “ 碗 ”的 中 间 (避免 饱和 ) ， 从 而 获得 比较 大 的 导 
数值 。 

所 以 从 功能 上 说 ,与 ReLU 是 重复 的 。 从 试验 结果 看 ，LRN 操作 可 以 提高 网 络 
的 泛 化 能 力 ， 将 错误 率 降低 大 约 1 个 百分点 。 

AlexNet 优势 在 于 : 网 络 增 大 (5 个 卷 积 层 +3 个 全 连接 层 +1 个 Softmax 层 )， 
同时 解决 了 过 拟 合 (Dropout，Data Augmentation，LRN ) ， 并 且 利 用 多 GPU 加 速 
计算 。 

A.4 Overfeat 

2013 年 的 12 月 , 纽约 大 学 的 Yann LeCun 实验 室 提出 了 AlexNet 的 衍生 一 一 
Overfeat (参见 : OverFeat: Integrated Recognition ，Localization and Detection using Con- 
volutional Networks) 。 这 篇 文章 也 提出 了 学 习 边 界 框 (Learning Bounding Box) ， 并 导 
致 之 后 出 现 了 很 多 研究 这 同一 主题 的 论文 。 目 前 学 习 分 制 对 象 比 学 习 人 工 边 界 框 
更 好 。 

A.5 VGG 

来 自 牛 津 大 学 的 VGG 网 络 (参见 : Very Deep Convolutional Networks for Large - 
Scale Image Recognition) 是 第 一 个 在 各 个 卷 积 层 使 用 更 小 的 3 x3 过 滤器 (Filter)， 
并 把 它们 组 合作 为 一 个 卷 积 序列 进行 处 理 的 网 络 。 

这 看 来 和 LeNet 的 原理 相反 ， 其 中 是 大 的 卷 积 被 用 来 获取 一 张 图 像 中 相似 特征 。 
和 AlexNet 的 9 x9 或 11 x11 过 滤器 不 同 ， 过 滤器 开始 变 得 更 小 ， 离 LeNet 所 要 避免 
的 1x1 卷 积 异常 接近 一 一 至 少 在 该 网 络 的 第 一 层 是 这 样 。 但 是 VGG 巨大 的 进展 是 
过 依次 采用 多 个 3 x3 卷 积 ， 能 够 模仿 出 更 大 的 感知 效果 ， 例 如 5 x5 与 7x7。 这 
些 思想 也 被 用 在 了 最 近 更 多 的 网 络 架 构 中 (如 Inception 与 ResNet) 。 网 络 配置 见 
表 A. 1 和 表 A. 2，。 
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表 A.1 网 络 配置 
A A-LRN B C D E 
11 层 11 层 13 层 16 层 16 层 19 层 
input( 224 x 224) RGB image 
conv3 ~64 conv3 —64 conv3 ~—64 conv3 —64 conv3 ~64 conv3 ~64 
LRN conv3 —64 conv3 -64 conv3 -64 conv3 —64 
maxpool 
conc3 一 128 conc3 一 128 conc3 一 128 conc3 一 128 conc3 一 128 conc3 一 128 
conc3 一 128 conc3 一 128 conc3 -128 conc3 一 128 
Imaxpool 
conv3 -256 conv3 -256 conv3 -256 conv3 -256 conv3 -256 conv3 -256 
conv3 -256 conv3 -256 conv3 -256 conv3 -256 conv3 -256 conv3 -256 
conv] -256 conv3 -256 conv3 -256 
conv3 -256 
maxpool 
conv3 -512 conv3 -512 conv3 -512 conv3 -512 conv3 -512 conv3 -512 
conv3 -512 conv3 -512 conv3 -512 conv3 -512 conv3 -512 conv3 -512 
conv] -512 conv3 -512 conv3 -512 
conv3 -512 
maxpool 
conv3 -512 conv3 -512 conv3 ~-512 conv3 -512 conv3 -512 conv3 -512 
conv3 -512 conv3 -512 conv3 -512 conv3 -512 conv3 -512 conv3 -512 
conv] -512 conv3 -512 conv3 -512 
maxpool 
FC -4096 
FC -4096 
FC - 1000 
soft ~ max 
表 A.2 网 络 参数 个 数 
网 络 A,A-LRN B C D E 
参数 个 数 133 133 134 138 144 








VGG 网 络 使 用 多 个 3 x3 卷 积 层 来 表征 复杂 特征 。 注 意 VGG -下 的 第 3、4、5 块 
(Block): 256 x256 和 512 x512 个 3 x3 过 滤器 被 依次 使 用 多 次 以 提取 更 多 复杂 特征 
以 及 这 些 特征 的 组 合 。 其 效果 等 同 于 一 个 带 有 3 个 卷 积 层 的 大 型 的 512 x512 大 分 类 
器 。 这 显然 意味 着 有 大 量 的 参数 ， 使 网 络 训练 很 困难 ， 必 须 划 分 为 较 小 的 网 络 ， 并 
逐 层 累 加 。 这 是 因为 缺少 对 模型 进行 正则 化 的 方法 。 

VGG 在 许多 层 中 都 使 用 大 特征 尺寸 ， 因 为 推断 ( Inference) 在 运行 时 是 相当 耗 


费时 间 的 。 正 如 Inception 的 瓶颈 (Bottleneck) 那样 ,减少 特征 的 数量 将 节省 一 些 计 
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算 成 本 。 

A.6 网 络 中 的 网 络 (Network -in -Network，NiN ) 

NiN 的 思路 简单 又 伟大 : 使 用 1 xl 卷 积 为 卷 积 层 的 特征 提供 更 组 合 性 的 能 

NiN 架构 在 各 个 卷 积 之 后 使 用 空间 MLP 层 ， 以 便 更 好 地 在 其 他 层 之 前 组 合 特征 
如 图 A. 8 所 示 。 同 样 ， 可 以 认为 1 x1 卷 积 与 LeNet 最 初 的 原理 相悖 ， 但 事实 上 它们 
可 以 以 一 种 更 好 的 方式 组 合 卷 积 特征 ， 而 这 是 不 可 能 通过 简单 堆 登 更 多 的 卷 积 特征 
做 到 的 。 这 和 使 用 原始 像素 作为 下 一 层 输入 是 有 区 别 的 。 其 中 1 x1 卷 积 常常 被 用 于 
在 卷 积 之 后 的 特征 映射 上 对 特征 进行 空间 组 合 ， 所 以 它们 实际 上 可 以 使 用 非常 少 的 
参数 ， 并 在 这 些 特征 的 所 有 像素 上 共享 。 


















































图 A.8 NiN 架构 








MLP 的 能 力 在 于 能 通过 将 卷 积 特征 组 合 到 更 复杂 的 组 (Group) 来 极 大 地 增加 单 
个 卷 积 特征 的 有 效 性 。 这 个 想法 之 后 被 用 到 一 些 最 近 的 架构 中 ， 例 如 ResNet、Incep- 
tion 及 其 衍生 技术 。 

NiN 也 使 用 了 平均 池 化 层 作 为 最 后 分 类 器 的 一 部 分 ， 这 是 另 一 种 将 会 变 得 常见 
的 实践 。 这 是 通过 在 分 类 之 前 对 网 络 对 多 个 输入 图 像 的 响应 进行 平均 完成 的 。 

A.7 GoogLeNet 与 Inception 

来 自 谷 歌 的 Christian Szegedy 开始 追求 减少 深度 神经 网 络 的 计算 开销 ， 并 设计 出 
GoogLeNet 


























第 一 个 Inception 架构 (参见: Going Deeper with Convolutions ) 。 

2014 年 秋季 ， 深 度 学 习 模 型 在 图 像 与 视频 帧 的 分 类 中 变 得 非常 有 用 。 鉴 于 这 些 
技术 的 用 处 ， 谷 歌 这 样 的 互联 网 巨头 非常 有 兴趣 在 他 们 的 服务 器 上 高 效 且 大 规模 庞 
大 地 部 署 这 些 架 构 。 

Christian 考虑 了 很 多 关于 在 深度 神经 网 络 达到 最 高 水 平 的 性 能 (例如 在 ImageNet 
上 ) 的 同时 减少 其 计算 开销 的 方式 ; 或 者 在 能 够 保证 同样 的 计算 开销 的 前 提 下 对 性 
能 有 所 改进 。 
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他 和 他 的 团队 提出 了 Inception 模块 ( 见 图 A. 9)。 















图 A.9 ”Inception 模块 


1X1 卷 积 







1X1 卷 积 








初 看 之 下 这 不 过 是 1 x1、3 x3、5 x5 卷 积 过 滤器 的 并 行 组 合 。 但 是 Inception 的 
伟大 思路 是 用 1 x1 的 卷 积 块 (NiN) 在 昂贵 的 并 行 模块 之 前 减少 特征 的 数量 。 这 一 
般 被 称 为 瓶颈 〈Bottleneck) 。 这 部 分 内 容 将 在 下 面 的 瓶颈 层 ( Bottleneck Layer) 部 分 

GoogLeNet 使 用 没有 Inception 模块 的 主干 作为 初始 层 ， 之 后 是 与 NiN 相似 的 一 个 
平均 池 化 层 加 Softmax 分 类 器 。 这 个 分 类 器 比 AlexNet 与 VGG 的 分 类 器 的 运算 数量 少 
得 多 。 

受到 NiN 的 启发 ，Inception 的 瓶颈 层 (Bottleneck Layer) 减少 了 每 一 层 的 特征 的 
数量 ， 并 由 此 减少 了 运算 的 数量 ; 所 以 可 以 保持 较 低 的 推理 时 间 。 在 将 数据 通 入 昂 
贵 的 卷 积 模块 之 前 ， 特 征 的 数量 会 减少 4 倍 。 在 计算 成 本 上 这 是 很 大 的 节约 ， 也 是 
该 架构 的 成 功 之 处 。 

下 面具 体验 证 一 下 : 现在 有 256 个 特征 输入 ，256 个 特征 输出 ， 假 定 Inception 层 
只 能 执行 3 x3 的 卷 积 ， 也 就 是 总 共 要 完成 256 x256 x3 x3 的 卷 积 (将 近 589 000 次 
乘积 累加 (MAC) 运算 )。 这 可 能 超出 了 计算 预算 ， 比如， 在 谷歌 服务 器 上 要 以 
0.5 ms 运行 该 层 。 作 为 蔡 代 ， 减少 需要 进行 卷 积 运算 的 特征 的 数量 ， 也 就 是 64 ( 即 
256/4) 个 。 在 这 种 情况 下 ， 首 先进 行 256 ->64 1 x1 的 卷 积 ， 然 后 在 所 有 Inception 
的 分 文 上 进行 64 次 卷 积 ， 接 而 再 使 用 一 个 来 自 64 ->256 的 特征 的 1 xl 卷 积 ， 运 算 
如 下 : 










































































256 x64 x1 x1 =16 000s 
64 x64 x3 x3 =36 000s 
64 x256 x1 x1 =16 000s 

相 比 于 之 前 的 60 万 ， 现 在 共有 7 万 的 计算 量 ， 几 乎 减少 了 近 10 倍 。 
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而 且 ， 在 获得 了 更 好 的 运算 的 同时 此 层 并 没有 损失 其 通用 性 〈Generality) 。 事 实 
证 明 ， 瓶 颈 层 在 ImageNet 这 样 的 数据 集 上 已 经 表现 出 了 顶尖 水 平 ， 而 且 它 也 被 用 于 
接 下 来 介绍 的 ResNet 这 样 的 架构 中 。 

它 之 所 以 成 功 是 因为 输入 特征 是 相关 联 的 ， 因 此 可 通过 将 它们 与 1 x1 卷 积 适当 
结合 来 减少 匈 余 。 然 后 ， 在 小 数量 的 特征 进行 卷 积 之 后 ， 它 们 能 在 下 一 层 被 再 次 扩 
展 成 有 意义 的 结合 。 

A.8 Inception V3 (还 有 V2) 

Christian 和 他 的 团队 都 是 非常 高 产 的 研究 人 员 。2015 年 2 月 ，Batch - normalized 
Inception 被 引入 作为 Inception V2 (参见 论文 : Batch Normalization: Accelerating Deep 


























Network Training by Reducing Internal Covariate Shift) 。Batch - normalization 在 一 层 的 输 
出 上 计算 所 有 特征 映射 的 均值 和 标准 差 ， 并 且 使 用 这 些 值 规范 化 它们 的 响应 。 这 相 
当 于 数据 增 白 〈Whitening) ， 因 此 使 得 所 有 神经 图 (Neural Maps) 在 同样 范围 有 响 
应 ， 而 且 是 零 均 值 。 在 下 一 层 不 需要 从 输入 数据 中 学 习 Offset 时 ， 这 有 助 于 训练 ， 还 
能 重点 关注 如 何 最 好 地 结合 这 些 特征 。 

2015 年 12 月 ， 该 团队 发 布 mception 模块 和 类 似 架 构 的 一 个 新 版 本 (参见 论文 : 
Rethinking the Inception Architecture for Computer Vision ) 。 该 论文 更 好 地 解释 了 原始 的 
GoogLeNet 架构 ， 在 设计 选择 上 给 出 了 更 多 的 细节 。 原 始 思路 如 下 : 

1) 通过 谨慎 建筑 网 络 ， 平 衡 深 度 与 宽度 ， 从 而 最 大 化 进入 网 络 的 信息 流 。 在 每 
次 池 化 之 前 ， 增 加 特征 映射 。 

2) 当 深 度 增加 时 ， 网 络 层 的 深度 或 者 特征 的 数量 也 系统 性 地 增加 。 

3) 当 深 度 增 加 时 同时 增加 特征 。 

4) 只 使 用 3 x3 的 卷 积 ， 可 能 的 情况 下 给 定 的 5x5 和 7 x7 过 滤器 能 分 成 多 
个 3x3 ( 见 图 A. 10)。 









































图 A. 10 Inception V3 架构 
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因此 新 的 Inception 变 成 图 A. 11 所 示 。 
滤波 器 合并 









图 A. 11 Inception V3 过 滤 技 术 





也 可 以 通过 将 卷 积 平整 到 更 多 复杂 的 模块 中 而 分 拆 过 滤器 ， 如 图 A. 12 所 示 。 











图 A. 12 ”Inception V3 过 滤器 拆 分 








在 进行 Inception 计算 的 同时 ，Inception 模块 也 能 通过 提供 池 化 降低 数据 的 大 小 。 
这 基本 类 似 于 在 运行 一 个 卷 积 的 时 候 并 行 一 个 简单 的 池 化 层 ， 如 图 A. 13 所 示 。 








图 A. 13 Inception V3 池 化 技术 


Inception 也 使 用 一 个 池 化 层 和 Softmax 作为 最 后 的 分 类 器 。 
797 


A.9 ResNet 

2015 年 12 月 又 出 现 了 新 的 变革 ， 这 和 Inception V3 出 现 的 时 间 一 样 。ResNet 有 
着 简单 的 思路 : 供给 两 个 连续 卷 积 层 的 输出 ， 并 分 流 (Bypassing) 输入 进入 下 一 层 ， 
如 图 A. 14 所 示 ，( 参 见 论文 : Deep Residual Learning for Image Recognition) 。 

















Y ReLU 


图 A. 14 ResNet 结构 


这 和 之 前 的 一 些 旧 思路 类 似 。 但 ResNet 中 ， 它 们 分 流 两 个 层 并 被 应 用 于 更 大 的 
规模 。 在 2 层 后 分 流 是 一 个 关键 ， 因 为 分 流 一 个 层 并 未 给 出 更 多 的 改进 。 通 过 2 层 
可 能 认为 是 一 个 小 型 分 类 器 ， 或 者 一 个 Network -in - Network。 
这 是 第 一 次 网 络 层 数 超过 100 ， 甚 至 还 能 训练 出 1000 层 的 网 络 。 

有 大 量 网 络 层 的 ResNet 开始 使 用 类 似 于 Inception 瓶颈 层 的 网 络 层 ， 如 图 A. 15 
所 示 。 
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图 A. 15 ”ResNet 的 瓶颈 层 的 网 络 
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这 种 层 通过 首先 使 用 带 有 更 小 输出 (通常 是 输入 的 1/4) 的 1x1 卷 积 较 少 特征 
的 数量 ， 然 后 使 用 一 个 3 x3 的 层 ， 再 使 用 1 x1 的 层 处 理 更 大 量 的 特征 。 类 似 于 
Inception 模块 ， 这 样 做 能 保证 计算 量 低 ， 同 时 提供 丰富 的 特征 结合 。 

ResNet 在 输入 上 使 用 相对 简单 的 初始 层 : 一 个 带 有 两 个 池 的 7 x7 卷 积 层 。 可 以 
把 这 个 与 更 复杂 、 更 少 直觉 性 的 Inception V3、V4 做 下 对 比 。 

ResNet 也 使 用 一 个 池 化 层 加 上 Softmax 作为 最 后 的 分 类 器 。 


关于 ResNet 的 其 他 见解 如 下 : 
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ResNet 可 被 认为 既是 并 行 模块 又 是 连续 模块 ， 把 输入 输出 (Inout) 视 为 在 许多 
模块 中 并 行 ， 同 时 每 个 模块 的 输出 又 是 连续 连接 的 。 

ResNet 也 可 被 视 为 并 行 模块 或 连续 模块 的 多 种 组 合 (参见 论文 : Residual Net- 
works are Exponential Ensembles of Relatively Shallow Networks ) 。 

已 经 发 现 ，ResNet 通常 在 20 ~30 层 的 网 络 块 上 以 并 行 的 方式 运行 ， 而 不 是 连 
流 过 整个 网 络 长 度 。 

当 ResNet 像 RNN 一 样 把 输出 反馈 给 输入 时 ， 该 网 络 可 被 视 为 更 好 的 生物 上 可 信 
的 皮质 模型 (参见 论文 : Bridging the Gaps Between Residual Learning，Recurrent Neu- 











ral Networks and Visual Cortex ) 。 

A.10 Inception V4 

这 是 Christian 与 其 团队 的 另 一 个 Inception 版 本 ,该 模块 类 似 于 Inception V3 ， 如 
图 A. 16 所 示 。 








图 A. 16 ”Inception V4 模块 1 


Inception V4 也 结合 了 Inception 模块 和 ResNet 模块 ， 如 图 A. 17 所 示 。 

A.ll SqueezeNet 

SqueezeNet (参见 论文 : SqueezeNet: AlexNet - Level Accuracy with 50x Fewer 
Parameters and <0.5 MB Model Size) 是 最 近 才 公布 的 ， 该 架构 是 对 ResNet 与 Inception 
里 面 概念 的 重新 处 理 。 一 个 更 好 的 架构 设计 网 络 型 号 要 小 ， 而 且 参 数 还 不 需要 复杂 
的 压缩 算法 。 

A. 12 ENet 

ENet 网 络 架构 由 Adam Paszke 设计 ， 目 前 已 经 使 用 它 进行 过 单 像 素 标 记 和 场景 
解析 。 
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图 A. 17 Inception V4 模块 2 





详细 了 解 ENet 可 参见 论文 ENet: A Deep Neural Network Architecture for Real - 
Time Semantic Segmentation。ENet 是 一 个 编码 加 解码 的 网 络 。 编 码 器 是 一 个 常规 的 
CNN 设计 进行 分 类 。 解 码 器 是 一 个 增 采 样 (Upsampling) 网 络 ， 将 分 类 反 向 传播 给 
原始 图 像 进行 分 割 。 这 只 使 用 了 神经 网 络 ， 没 有 其 他 算法 进行 图 像 分 割 。 

ENet 被 设计 为 在 开始 时 尽 可 能 使 用 最 小 数量 的 资源 。 正 是 如 此 它 有 着 如 此 小 的 
脚本 ， 编 码 器 和 解码 器 网 络 共 占有 0.7 MB，16 fp 精度 。 即 使 这 么 小 的 型 号 ，ENet 在 
分 割 的 准确 度 上 也 类 似 于 或 者 高 于 其 他 神经 网 络 解 决 方案 。 

A.13 ”其 他 值得 关注 的 架构 

FractalNet (参见 论文 : FractalNet: Ultra - Deep Neural Networks without Residu- 
als) 使 用 递归 架构 ， 它 在 ImageNet 上 没有 进行 测试 。 该 架构 是 ResNet 的 衍生 或 者 更 
通用 的 ResNet。 

制作 神经 网 络 架 构 是 深度 学 习 领 域 发 展 的 头等 大 事 。 推 荐 仔细 阅读 并 理解 本 节 
中 提 到 的 论文 。 

但 有 人 可 能 会 想 为 什么 要 投入 如 此 多 的 时 间 制 作 架 构 ? 为 什么 不 是 用 数据 告诉 
我 们 使 用 什么 ?” 如何 结合 模块 ? 这些 问题 很 好 ， 但 仍 在 研究 中 ， 可 以 参考 论文 : 
Neural Networks with Differentiable Structure。 

要 注意 到 ， 在 本 书 中 提 到 的 大 部 分 架构 都 是 关于 计算 机 视觉 的 。 类 似 神经 网 络 
架构 在 其 他 领域 内 也 有 开发 ， 学 习 其 他 所 有 任务 中 的 架构 变革 也 是 非常 有 趣 的 。 

如 果 对 神经 网 络 架 构 和 计算 性 能 的 比较 有 兴趣 ， 可 参见 论文 An Analysis of 


Deep Neural Network Models for Practical Applications。 
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附录 B 深度 学 习 的 未 来 一 一 GAN 


B.1 对 抗 样本 

2014 年 Szegedy 在 研究 神经 网 络 的 性 质 时 ， 发 现 针 对 一 个 已 经 训练 好 的 分 类 模 
型 ， 将 训练 集中 样本 做 一 些 细微 的 改变 会 导致 模型 给 出 一 个 错误 的 分 类 结果 ， 这 种 
虽然 发 生 扰 动 但 是 人 眼 可 能 识别 不 出 来 ， 并 且 会 导致 误 分 类 的 样本 被 称 为 对 抗 样本 ， 
他 们 利用 这 样 的 样本 发 明了 对 抗 训练 ( Adversarial Training) ， 模 型 既 训 练 正常 的 样本 
也 训练 这 种 自己 造 的 对 抗 样本 ， 从 而 改进 模型 的 泛 化 能 力 。 如 图 B. 1 所 示 ， 在 未 加 
扰动 之 前 ， 模 型 认为 输入 图 片 有 57.7% 的 概率 为 熊猫 ， 但 是 加 了 之 后 ， 人 眼看 着 好 
像 没 有 发 生 改 变 ， 但 是 模型 却 认为 有 99. 3% 的 可 能 是 长 辟 猿 。 


| + .007X 





让 
ésign( Wx/(0, x, »)) 


x sign(Ax/(0, x,»)) 


熊猫 ， 置 信和 度 57.7% 线虫 ， 置 信和 度 8.2% 长 避 猿 ， 置 信 度 99.3% 








图 B. 1 对 抗 样本 的 产生 








Goodfellow 在 2015 年 指出 ， 其 实 模 型 欠 拟 合 也 能 导致 对 抗 样本 ， 因 为 从 现象 上 
来 说 是 输入 发 生 了 一 定 程度 的 改变 从 而 导致 了 输出 的 不 正确 ， 如 图 B. 2 a、b 分 别 是 
过 拟 合 和 欠 拟 合 导致 的 对 抗 样本 ， 其 中 灰色 的 。 和 x 代表 训练 集 ， 黑色 的 。 和 x 即 对 
抗 样本 ， 可 以 明显 看 到 ， 欠 拟 合 的 情况 下 输入 发 生 改 变 也 会 导致 分 类 不 正确 (这 里 
图 B. 2 中 所 描述 的 对 抗 样本 不 一 定 与 原始 样本 是 同 分 布 的 ， 也 可 能 是 人 为 造 的 一 个 
东西 ， 而 不 是 真实 数据 的 反馈 ) 。 

B.2 生成 式 对 抗 网 络 GAN 

生成 式 对 抗 网 络 ( Generative Adversarial Network ，GAN) 启发 自 博弈 论 中 的 二 人 
零 和 博弈 ， 将 成 为 深度 学 习 的 下 一 个 热点 ， 它 将 改变 我 们 认 知 世界 的 方式 。 

准确 来 讲 ， 对 抗 式 训练 为 指导 人 工 智 能 完成 复杂 任务 提供 了 一 个 全 新 的 思路 ， 
某 种 意义 上 他 们 (人 工 智能 ) 将 学 习 如 何 成 为 一 个 专家 。 

GAN 解决 问题 的 方式 是 用 不 同 的 目标 分 别 训练 两 种 不 同 的 网 络 ; 

1) 创造 答案 (Generator， 生 成 方 或 生成 网 络 ) 。 
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图 B. 2 过 / 欠 拟 合 导 致 对 抗 样本 











2) 分 辨 创造 答案 与 真实 答案 的 区 别 (Discriminator， 对 抗 方 或 判断 网 络 ) 。 

GAN 的 思想 是 : 训练 两 种 网 络 进行 竞争 ， 一 段 时 间 后 ， 两 种 网 络 都 无 法 在 对 搞 
中 取得 进步 ， 或 者 生成 方 变 得 非常 厉害 以 至 于 即使 给 定 足 够 的 线索 和 时 间 ， 其 对 抗 
网 络 也 无 法 分 辨 它 给 的 答案 是 真实 的 还 是 合成 的 。 

GAN 要 解决 的 问题 是 如 何 从 训练 样本 中 学 习 出 新 样本 ,训练 样本 是 图 片 就 生成 
新 图 片 ， 训 练 样本 是 文章 就 输出 新 文章 等 。 

举 个 对 抗 式 训练 的 例子 ， 当 你 试图 通过 模仿 别人 完成 某 项 工作 时 ， 如 果 专 家 都 
无 法 分 辨 这 项 工作 是 你 完成 的 还 是 你 的 模仿 对 象 完成 的 ， 说 明 你 已 经 完全 掌握 了 该 
工作 所 需 的 技巧 。 对 于 像 写 论文 这 样 复杂 的 工作 ， 这 个 例子 可 能 不 适用 ， 毕 竟 每 个 
人 的 最 终 成 果 多 少 有 些 不 同 ， 但 对 于 造句 或 写 一 段 话 ， 对 抗 式 训 练 大 有 用 武之 地 ， 
事实 上 它 现 在 已 经 是 计算 机 生成 真实 图 像 的 关键 所 在 了 。 算 法 流程 如 图 B. 3 所 示 。 

















图 B.3 GAN 算法 


B.3 ”对 抗 学 习 

相 比 强化 学 习 (Reinforcement Learning，RL) 而 言 ， 对 抗 式 学 习 更 接近 人 类 的 
学 习 方式 。 

RL 通过 最 大 化 (平均) 最 终 奖励 来 达到 训练 目的 。 当 前 的 状态 也 许 与 奖励 无 
关 ， 但 最 终 的 结局 一 定 会 由 “奖励 函数 ”给 出 。 
196 











20 世纪 90 年 代 ， 强 化 学 习 在 十 五 子 棋 游 戏 中 取得 巨大 突破 ， 它 是 DeepMind 创 
造 的 AlphaGo 的 一 个 重要 组 成 部 分 ，DeepMind 团队 甚至 用 RL 来 节省 谷歌 的 数据 中 
心 的 冷却 费用 。 

RL 在 谷歌 数据 中 心 环境 中 ， 可 以 很 好 地 定义 奖励 函数 (在 防止 温度 高 于 限定 值 
的 条 件 下 尽 可 能 省 钱 ) 。 

对 于 那些 更 实际 的 问题 ， 奖 励 函 数 是 什么 呢 ?” 即 使 是 类 似 游戏 中 的 任务 如 驾驶 ， 
其 目标 既 不 是 尽快 到 达 目 的 地 ， 也 并 非 始 终 待 在 道路 边界 线 内 。 可 以 很 容易 地 找到 
一 个 负 奖 励 (比如 撞 坏 车 辆 、 使 乘客 受伤 、 不 合理 地 加 速 )， 但 却 很 难 找到 一 个 可 以 
规范 驾驶 行为 的 正 奖励 。 

B.4 应 用 实例 

我 们 是 如 何 学 习 写 字 的 ? 除非 是 在 要 求 很 严格 的 小 学 ， 和 否则 学 习 写 字 的 过 程 很 
难说 是 最 大 化 某 个 与 书写 字母 有 关 的 函数 。 最 可 能 的 情况 是 你 模仿 老师 在 黑板 上 的 
书写 笔顺 ， 然 后 内 化 这 一 过 程 。 

生成 网 络 书写 字母 ， 而 识别 网 络 (对 抗 方 ) 观察 书写 的 字体 和 教科 书 中 理想 字 
体 的 区 别 ， 如 图 B. 4 所 示 。 
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图 B.4 针对 三 年 级 学 生 的 对 抗 式 训练 











现实 中 通常 是 老师 更 会 写字 ,但 通过 这 个 例子 ， 应 该 是 学 生 更 会 写字 。 因 为 一 
个 用 于 识别 产品 评论 的 识别 器 只 需 知 道 一 些 常见 的 语法 错误 ， 就 能 投入 使 用 。 


所 以 ， 可 以 得 出 一 个 很 自然 的 结论 ， 生 成 式 对 抗 方法 ， 可 以 让 人 工 智 能 有 能 
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做 实验 和 A/B 测试 。 一 个 人 工 智 能 模型 给 出 了 一 个 很 好 的 解决 方案 ， 然 后 它 搜集 反 
馈 来 了 解 这 个 生成 方案 和 标准 答案 是 否 相符 ， 或 与 其 他 正在 学 习 或 已 经 内 化 的 人 工 





所 








标准 。 
B.5 GAN 优势 
GAN 优势 如 下 : 


1) 非常 好 的 特 和 

















a 
智能 模型 比较 ， 观 察 得 出 的 结果 是 否 相 符 。 在 这 一 过 程 中 ， 没 必要 去 设计 一 个 损失 
函数 ， 因 为 虽然 可 能 会 花 上 一 点 时 间 , 但 这 个 人 工 智 能 模型 终 将 找到 自己 的 评判 





:学习 。 


2) 在 强化 学 习 中 的 探索 。 
3) 道 向 增强 学 习 。 
4) 真正 使 用 的 对 话 。 


5) 理解 世界 。 


6) 迁移 学 习 。 





(1) 聚 类 


附录 C”R 包 分 类 


常用 的 包 : fpc，cluster，pvelust，mclust 


基于 划分 的 方法 : 
基于 层次 的 方法 : 
基于 模型 的 方法 : 
基于 密度 的 方法 : 
基于 画图 的 方法 : 
基于 验证 的 方法 : 





(2) 分 类 


kmeans, pam, pamk, clara 
helust, pvclust, agnes, diana 
mcelust 

dbscan 

plotcluster , plot. hclust 


cluster. stats 


常用 的 包 : Ipart，Pparty ， randomForest, rpartOrdinal ， tree ， marginTree, maptree ，SUT- 


vival 


决策 树 ; rpart, ctree 
随机 森林 : cforest，randomForest 


回归 : Logistic，Poisson ，glm，predict，residuals 
生存 分 析 : survfit，survdiff，coxph 
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(3) 序列 模式 

常用 的 包 : arulesSequences ，timsac ，zoo 

SPADE 算法 : cSPADE 

常用 的 包 : timsac 

时 间 序 列 构建 函数 :its 

成 分 分 解 : decomp ，decompose ，stl，tsr 

(4) 统计 

常用 的 包 : Base R，nlme 

方差 分 析 : aov，anova 

密度 分 析 : density 

假设 检验 : t. test，prop. test，anova，aov 

线性 混合 模型 : lme 

主 成 分 分 析 和 因子 分 析 : princomp 

方差 分 析 对 应 的 是 Kruskal - Wallis 秩 和 检验 :kruskal. test 
T 检 验 对 应 的 是 Wilcoxon 符号 秩 和 检验 R: wilcox. test 
随机 微分 方程 模拟 和 统计 推断 ，sde 

非 参 数 平滑 与 分 布 估计 : KernSmooth 

用 来 方便 地 做 MLE 估计 : stats4 

非 线性 方程 求 根 、ODE 均衡 状态 解 : rootSolve 
非 线 性 优化 : Rsolnp 

(5) 机 器 学 习 

神经 网络: nnet，deepnet，ReppDL，autoencoder，neuralnet， RSSNS， Rdbn， 














AMORE, MXNetR, darch, H20 
支持 向 量 机 SVM: e1071 

核 昭 数 ; kernlab 

(6) 数据 库 

连接 ODBC 数据 库 接口 : RODBC 
连接 轻 量 级 SQLite 数据 库 连接 : RSQLite 
像 写 SQL 语句 一 样 对 数据 框 做 操作 : sqldf 
(7) NLP 

词汇 数据 库 : Wordnet 





799 


命名 实体 识别 : openNLP，KoNLP 

分 词 ， Snowball/Rwordseg (分 词 http://R - Forge. R - project org) 
词 干 化 : Rstem 

文本 挖掘 RTextTool ，textact，Isa ，tm 

主题 模型 ， topicmodel 

关键 词 提 取 : tau，gsubfn，RKEA 
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后 记 








实践 深度 学 习 应 注意 以 下 问题 : 
一 点 ， 在 学 习 深 度 学 习 之 前 ， 总 以 为 深度 学 习 是 很 了 不 得 的 知识 ， 能 解决 很 
。 其 实 不 然 ， 深 度 学 习 算法 与 其 他 机 顺 学 习 算 法 (如 SVM 等 ) 相似 ,仍然 可 
: 学 习 算法 当 作 个 分 类 器 ， 像 使 用 一 个 黑 盒 子 那样 使 用 深度 学 习 算 法 。 
第 二 点 ， 深 度 学 习 强 大 的 地 方 就 是 可 以 利用 网 络 中 间 茶 一 层 的 输出 当 作 数据 的 
男 一 种 表达 ， 从 而 可 以 认为 深度 学 习 是 经 过 网 络 学 习 到 的 特征 。 基 于 该 特征 ， 可 以 
进一步 的 相似 度 比 较 等 。 
Se 深度 学 习 算法 能 够 有 效 的 关键 是 使 用 大 规模 的 数据 ， 原 因 在 于 每 个 深 
度 学 习 算法 都 有 众多 的 参数 ， 少 量 数 据 无 法 将 参数 训练 充分 。 
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